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内 容 简 介 


本 书 对 大 数据 挖掘 与 应 用 的 基本 算法 进行 了 系统 的 介绍 ,每 种 算法 不 仅 包括 对 算法 基本 原理 的 介绍 ， 
而 且 配 有 大 量 的 例题 以 及 基于 阿里 云 数 加 平台 的 演示 ,这 种 理论 与 实践 相 结 合 的 方式 极 大 地 方便 了 读者 
对 抽象 的 数据 挖掘 算法 的 理解 和 掌握 。 

本 书 共 17 章 , 内 容 覆 盖 了 数据 预 处 理 .关联 规则 挖掘 算法 、 分 类 算法 和 聚 类 算法 及 常见 的 数据 挖掘 应 
用 ,具体 章节 包括 大 数据 简介 、 数 据 预 处 理 技术 、 关 联 规则 挖掘 、 逻 辑 回归 方法 .KNN 算法 .朴素 贝 叶 斯 分 
类 算法 、 随 机 森林 分 类 算法 ,支持 向 量 机 、 人 工 神经 网 络 算法 、 决 策 树 分 类 算法 、K-means 聚 类 算法 、.K- 中 心 
点 聚 类 算法 、 自 组 织 神经 网 络 聚 类 算法 .DBSCAN 聚 类 算法 以 及 社交 网 络 分 析 方法 及 应 用 、 文 本 分 析 方法 
及 应 用 和 推荐 系统 方法 及 应 用 等 内 容 。 

本 书 可 作为 高 等 院 校 数 据 挖 掘 课程 的 教材 , 也 可 作为 从 事 数 据 挖掘 工作 及 其 他 相关 工程 技术 工作 的 
人 员 的 参考 书 。 
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DT 时 代 的 数据 思维 与 智能 思维 


本 套 云 计算 大 数据 从 书 出 版 正 值 信息 科技 领域 进入 新 一 轮 巨 变 ,中 国 经 济 面临 转型 机 
遇 的 特殊 时 期 。 全 球 信息 科技 行业 伴随 着 云 计算 、 大 数据 、 物 联网 、 人 工 智能 的 发 展 即 将 进 
入 一 个 泛 智能 的 时 代 , 云 计算 成 为 数字 经 济 的 基础 设施 ; 数据 驱动 、 泛 在 智能 成 为 各 行 各 业 
转型 升级 的 基础 ,不 仅 传统 的 IT 从 业 人 员 面 临 能 力 升 级 ,大 多 数 在 校 大 学 生 也 面临 新 一 轮 
知识 体系 的 更 新 ,各 个 垂直 行业 面临 新 一 轮 的 人 才 升 级 。 新 一 代 人 才 教 育 与 培训 ,需要 一 套 
产 学 一 体 的 培训 课程 体系 ,这 是 阿里 云 愿 意 投 身 云 计算 大 数据 网 络 安全 人 才 培 养 体系 的 时 
代 背 景 。 云 计算 、 大 数据 、 网 络 安全 不 仅 关 平 网 络 强国 的 大 使 命 ,也 逐步 成 为 各 行 各 业 专 业 
人 才 的 “元 学 科 ”, 会 逐步 成 为 高 等 与 职业 教育 的 通 识 课 程 ,一 些 发 达 国家 已 经 在 中 小 学 立法 
普及 编程 课 , 已 经 开始 指向 这 个 趋势 。“ 懂 云 计算 ,有 数据 思维 ,理解 智能 化 ”, 未 来 可 能 是 每 
一 个 工程 技术 人 员 与 专业 人 士 的 必要 素质 。 

2016 年 开始 ,全 球 信息 科技 进入 一 个 新 的 加 速 爆发 周期 ,可 能 发 生 的 大 概率 事件 是 : 
二 十 年 之 内 ,有 一 半 的 人 类 知识 工作 者 会 被 人 工 智 能 替代 ,有 服务 能 力 的 机 器 人 会 诞生 ,全 
世界 的 产业 工人 会 少 于 机 器 人 ; 虚拟 现实 和 增强 现实 会 蔡 代 今天 的 智能 手机 , 变 成 一 个 新 
的 入 口 ; 各 行 各 业 都 会 需要 基于 物 联 网 的 智能 化 ,“ 中 国 制造 "会 成 为 广泛 意义 的 “中 
Tus". 

新 一 轮 科技 带 来 了 生活 方式 的 变革 ,生产 方式 的 变革 ,还 有 学 习 方 式 的 变革 ,这 几 个 趋 
势 的 背后 ,是 云 计算 作为 一 种 普 惠 科技 的 基础 设施 ,大 数据 成 为 新 能 源 , 智 能 化 成 为 一 种 新 
常识 。 

2016 年 ,全 世界 的 短视 频 总 量 增长 了 6 倍 ,直播 业务 在 中 国 增长 了 10 倍 , 远 在 偏远 小 
镇 的 青年 可 以 通过 直播 做 电子 商务 ,转化 率 可 以 提升 十 倍 以 上 。 当 一 个 技术 的 使 用 成 本 趋 
近 于 零 的 时 候 ,会 带 来 广泛 的 社会 效应 。 十 年 以 前 的 直播 只 有 电视 台 能 做 ,需要 专门 的 摄像 
机 等 设备 ,而 今天 的 直播 只 需要 一 个 手机 :而且 是 多 对 多 带 互动 的 。 无 论 是 短视 频 , 还 是 直 
播 , 背 后 都 有 云 计 算 作为 普 惠 科技 的 支撑 作用 ,由 此 带 来 的 ,所 有 与 知识 传播 有 关 的 教育 , 包 
括 整 个 内 容 行业 ,都 会 被 它 改变 , 随 着 大 数据 和 人 工 智 能 的 加 入 ,人 类 学 习 的 方式 交互 性 会 
更 强 ,“ 学 习 系 统 ” 会 根据 不 同人 的 理解 程度 做 个 性 化 的 推荐 与 辅导 。 

这 意味 着 知识 生产 与 知识 传播 方式 的 根本 性 转变 ,这 个 恰恰 是 云 计算 、 人 工 智能 等 科技 
与 各 行 各 业 产生 化 学 反应 的 交叉 点 ,数据 是 这 个 转变 的 新 能 源 。 

在 2016 年 10 月 ,阿里 云 和 法 院 系 统合 作 ,发 布 了 一 个 面向 法 律 服务 的 智能 应 用 “法 小 
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淘 ”, 通 过 把 数 千 万 份 法 律 判例 文本 化 ,“ 法 小 淘 ” 智 能 应 用 可 以 为 普通 老百姓 以 及 初级 律师 
提供 “ 打 官 司 ” 的 咨询 服务 ,根据 用 户 输入 的 案件 信息 给 出 建议 ,包括 推荐 合适 的 律师 。 貌 似 
与 科技 远离 的 法 律 服务 也 用 上 了 人 工 智 能 ,这 是 垂直 行业 泛 智能 化 的 一 个 小 例子 。 

中 国 制 造 进入 智能 时 代 

在 工业 界 , 阿 里 云 跟 中 石化 合作 ,协助 他 们 做 了 企业 的 电 商 平台 ; 与 徐工 合作 ,推动 工 
厂 基于 工业 云 的 智能 化 ; 与 上 汽 合作 ,推出 具有 智能 服务 的 互联 网 汽车 ,都 收 到 积极 的 市 场 
反馈 。 中 国 制造 ,面临 智能 化 的 产业 机 遇 , 借助 互 联网 人 口 和 产业 布局 两 大 优势 成 为 未 来 的 
第 一 个 智能 产品 制造 国 。 

在 接 下 来 的 几 年 ,互联 网 十 智能 制造 的 登 加 会 在 很 多 个 垂直 领域 出 现 ,数据 智能 与 制造 
业 结 合 , 产 生 “ 跨 界 重 混 ” 的 效果 ,甚至 制造 业 就 不 是 以 制造 为 主 ,而 是 以 服务 化 为 主 。 这 个 
巨大 的 重 构 背 后 依赖 云 和 大 数据 。 也 因为 这 个 需求 ,我 们 可 预见 到 工业 企业 对 云 计算 大 数 
据 人 才 的 需求 会 越 来 越 强烈 。 

“创业 化 生存 ”与 共享 经 济 的 兴起 

创业 化 ,会 成 为 一 种 常态 , 越 来 越 多 的 年 轻 人 开始 告别 公司 ,兴起 中 的 数字 经 济 体 ,都 是 
基于 云 平台 的 网 络 化 协作 组 织 ; 云 计算 成 为 共享 经 济 的 超级 容器 ,催生 新 一 代 创业 者 和 “和 余 
杠 青 年 "。 十 年 以 后 ,或 许 一 半 以 上 的 从 业者 都 是 “和 斜 杠 青 年 ”, 今 天 美国 就 有 数 干 万 人 是 跨 
工作 、 跨 公司 的 “ 斜 杠 青年 ”。 

过 去 十 年 , 云 计算 使 得 创业 公司 的 创业 门槛 降低 了 10 倍 ,没有 云 计算 , Airbnb, 
NetFlix, HERF, Uber 等 公司 不 可 能 这 么 快 成 长 壮大 ,新 一 代 创 业者 的 一 个 核心 能 力 就 是 要 
懂 技 术 , 理 解数 据 和 算法 的 价值 ,缺少 技术 理解 力 的 创业 者 将 面临 更 大 的 同 质 化 压力 。 一 句 
话 , 无 论 是 草根 创业 ,还 是 做 一 个 “ 斜 杠 青 年 ”, 必 要 的 数据 思维 是 生存 本 能 。 

创业 化 和 共享 经 济 的 崛起 ,有赖 于 云 计算 作为 基础 设施 ,大 数据 作为 新 能 源 的 全 新 范 
式 ,新 一 代 创业 公司 需要 大 量 的 科技 人 才 。 

在 未 来 的 经 济 环境 里 , 普 惠 云 科技 的 基础 设施 化 制造 的 智能 化 ` 软 件 的 泛 化 以 及 数据 
无 处 不 在 ,是 一 个 大 趋势 ,并 且 不 断 向 各 行 各 业 渗 透 。 本 套 丛书 就 是 希望 在 这 个 普 惠 科技 与 
各 行 各 业 深 度 融 合 的 时 代为 下 一 代 科 技 人 才 的 培养 提供 更 多 产业 界 的 经 验 与 实践 。 

感谢 清华 大 学 出 版 社 出 版 本 套 云 计算 与 大 数据 方面 的 系列 教材 。 感 谢 各 位 高 校 老师 的 
辛苦 努力 和 用 心 付出 ,使 得 本 系列 教材 能 够 付 梓 出 版 。 
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近年 来 , 随 着 移动 互联 网 、 物 联网 以 及 云 计 算 的 迅猛 发 展 ,大 数据 成 为 了 世界 各 地 学 术 
界 、 产 业界 以 及 政府 部 门 的 关注 热点 。 早 在 2009 年 ,联合 国 就 启动 了 “全 球 脉动 计划 ”, 拟 通 
过 大 数据 推动 落后 地 区 的 发 展 ,2012 年 ,美国 政府 提出 “大 数据 研究 和 发 展 倡议 ”, 发 起 了 全 
球 开放 政府 数据 的 运动 ,2015 年 ,中 国政 府 也 通过 了 “促进 大 数据 发 展 行动 纲要 ”; 在 学 术 
界 , 美 国 麻 省 理工 大 学 计算 机 科学 与 人 工 智 能 实验 室 建立 了 大 数据 科学 技术 中 心 (ISTC)， 
英国 牛津 大 学 成 立 了 首 个 综合 运用 大 数据 的 医药 卫生 科研 中 心 ; 在 产业 界 , IBM, 
Microsoft、 阿 里 巴巴 等 都 提出 了 各 自 的 大 数据 解决 方案 或 应 用 。 

在 对 大 数据 的 研究 和 应 用 过 程 中 ,数据 挖掘 始终 占据 着 核心 位 置 。 与 传统 的 数据 相 比 ， 
大 数据 的 特征 可 以 总 结 为 5 个 V, 即 体 量 大 (Volume)、 速 度 快 (Velocity)、 模 态 多 
(Variety) \ 难 辨识 (Veracity) 和 价值 大 (Value) ,这些 特征 给 数据 挖掘 工作 带 来 了 新 的 挑战 。 

本 教材 以 数据 挖掘 的 研究 任务 为 主线 ,系统 介绍 了 常见 的 各 类 算法 及 应 用 。 在 介绍 过 
程 中 ,本 书 不 仅 通 过 深入 浅 出 的 例题 讲解 ,完整 规范 的 源 程序 实现 展示 了 众多 算法 的 原理 ， 
而 且 基 于 阿里 云 数 加 平台 ,给 出 了 算法 平台 级 的 实现 及 应 用 ,以 便 读者 更 深入 地 理解 大 数据 
挖掘 的 原理 及 应 用 。 

相信 此 书 可 以 帮助 读者 学 习 和 掌握 大 数据 挖掘 的 常用 算法 ,更 好 地 理解 大 数据 挖掘 的 
应 用 场景 ,进而 推动 大 数据 在 更 加 广泛 范围 内 的 应 用 。 
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大 数据 泛 指 大 规模 、 超 大 规模 数据 集 , 因 可 从 中 挖掘 出 有 价值 的 信息 而 备 受 关注 。 数 据 
挖掘 是 一 个 涉及 数据 库 技 术 、 人 工 智 能 、 统 计 学 、 机 器 学 习 等 多 个 学 科 的 领域 ,并 且 已 经 在 各 
行 各 业 有 着 非常 广泛 的 应 用 。 为 适应 我 国 数据 挖掘 的 教学 工作 ,笔者 在 数据 挖掘 教学 实践 


的 基础 上 ,参阅 了 多 种 
的 教材 ,也 可 以 为 相关 


国内 外 最 新 版 本 的 教材 ,编写 了 本 书 。 本 书 可 以 作为 高 等 院 校 研究 生 
行业 的 工程 技术 人 员 提 供 有 益 的 参考 。 





本 书 是 教育 部 阿里 云 产 学 合作 项 目 , 在 内 容 安排 上 循序 渐进 ,对 大 数据 挖掘 的 基本 算法 
进行 详细 的 讲解 。 本 书 的 最 大 特点 是 理论 与 实践 相 结合 ,算法 理论 与 产业 一 线 实践 相 结合 ， 
全 书 几乎 所 有 的 算法 都 配 有 实例 和 基于 阿里 云 数 加 平台 的 演示 。 这 种 理论 与 实践 相 结 合 的 



































































































































方法 克服 了 重 理论 、 轻 实践 的 内 容 组 织 方式 , 极 大 地 方便 了 读者 的 理解 。 具 体 而 言 ,本 书 17 
章 内 容 之 间 的 关系 如 下 图 所 示 。 
第 1 章 大 数据 简介 | 于 大 数据 、 大 数据 挖 据 、 大 数据 平台 相关 技术 等 进行 介绍 — ] 
Dk 对 数据 预 处 理 的 目的 、 数 据 采样 与 过 滤 、 数 据 清理 、 数 据 集 
JR MAAAR ———— | “| 成、 数据 变换 、 数 据 明 约 、 特 征 提取 与 选 择 方法 进行 介绍 | 
第 3 章 “关联 规则 挖 所 上 -一 时 关联 规则 挖掘 的 基本 概念 以 及 Aprion 算 法 进行 详细 介绍 — ] 
对 逮 辑 回归 的 原理 、 特 点 、 应 用 及 基于 阿里 云 数 加 平台 的 
BAe RENAE 实例 演示 进行 详细 介绍 E | 
对 KNN 算 法 的 原理 、 特 点 、 应 用 及 基于 阿里 云 数 加 平台 的 
Bis ENNE [facie rien sre 
对 朴素 贝 叶 斯 分 类 算法 的 原理 、 特 点 、 应 用 及 基于 阿里 去 
LÀ mem nemam: Ln scettr rie ed | 
F OPE 对 随机 森林 分 类 算法 的 原理 ,特点 、 应 用 及 基于 阿里 云 数 
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第 1 章 大 数据 简介 





1.1 X 数据 


1.1.1 大 数据 的 定义 


大 数据 是 一 个 较为 抽象 的 概念 ,正如 信息 学 领域 大 多 数 新 兴 概 念 一 样 , 大 数据 至 今 尚 无 
确切 、 统 一 的 定义 ,不 同 的 机 构 或 个 人 给 出 了 不 同 的 定义 。 

麦肯锡 咨询 公司 在 其 报告 (Big data; The next frontier for innovation. competition. 
and productivity》 中 将 大 数据 定义 为 "大 数据 指 的 是 大 小 超出 常规 数据 库 工 具 获取 、 存 储 、 管 
理 和 分 析 能 力 的 数据 集 *。 但 它 同时 强调 ,并 不 是 说 一 定 要 超过 特定 TB 值 的 数据 集 才能 算 
是 大 数据 。 这 个 定义 只 是 强调 了 大 数据 的 数据 量 “ 大 ”的 特点 ,并 且 也 没有 给 出 具体 的 量化 
标准 ,到 底 多 “大 ”的 数据 才 算 是 大 数据 。 

国际 数据 公司 (International Data Company,IDC) 对 大 数据 的 定义 为 : 大 数据 一 般 涉 
及 2 种 或 2 种 以 上 数据 形式 。 它 要 收集 超过 100TB 的 数据 ,并 且 是 高 速 . 实 时 数据 流 ; 或 者 
是 从 小 数据 开始 ,但 数据 每 年 会 增长 60% 以 上 。 这 个 定义 给 出 了 量化 标准 ,但 只 强调 数据 
量 大 、 种 类 多 、 增 长 快 等 数据 本 身 的 特征 。 

维基 百科 将 大 数据 定义 为 : 大 数据 是 指 利用 常用 软件 工具 获取 、 管 理 和 处 理 数 据 所 耗 
时 间 超 过 可 容忍 时 间 的 数据 集 。 这 个 概念 也 不 是 一 个 精确 的 概念 ,因为 对 主流 软件 工具 和 
可 容忍 时 间 的 范围 不 好 界定 。 

研究 机 构 Gartner 给 出 了 这 样 的 定义 : 大 数据 是 需要 新 处 理 模式 才能 具有 更 强 的 决策 
力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 这 个 定义 也 是 一 个 
描述 性 的 定义 ,对 大 数据 的 本 质 刻画 还 是 不 够 清晰 。 

亚马逊 公司 的 大 数据 科学 家 John Rauser 给 出 了 一 个 简单 的 定义 : 大 数据 是 任何 超过 

一 台 计 算 机 处 理 能 力 的 数据 量 。 这 同样 是 一 个 非常 宽泛 的 定义 ,对 大 数据 本 质 的 理解 也 

不 够 全 面 和 深刻 。 

毫 无 疑问 ,对 大 数据 的 本 质 认识 需要 一 个 不 断 深化 的 过 程 ,但 这 并 不 影响 大 数据 科学 的 
发 展 以 及 对 大 数据 的 应 用 。 


1.1.2 大 数据 的 特点 


虽然 不 同 的 企业 或 个 人 对 大 数据 都 有 着 自己 的 不 同 解 读 , 但 人 们 都 普遍 认为 ,大 数据 有 
5 个 “V” 的 特征 四, 即 Volume, Velocity, Variety, Veracity 和 Value. 











大 数据 控 握 与 应 用 





(1) 数据 体 量 (volume) 巨 大 。 数 据 量 大 是 大 数据 的 基本 属性 。 导 致 数据 规模 激增 的 原 
因 很 多 ,总 地 来 说 包括 以 下 三 个 方面 中。 

CD 随 着 互联 网 的 广泛 应 用 ,使 用 网 络 的 个 人 和 机 构 增多 ,数据 的 生成 ,获取 和 分 享 变 得 
更 加 容易 。 

© 随 着 物 联网 的 快速 发 展 , 各 种 传感器 的 数据 获取 能 力 大 幅 提高 ,使 得 人 们 获取 的 数 
据 越 来 越 接近 原始 事物 本 身 ,描述 同一 事物 的 数据 量 激增 。 

@ 数据 的 增长 速度 随 着 数据 应 用 的 发 展 ,数据 维度 越 来 越 高 ,描述 相同 事物 所 需 的 数 
据 量 越 来 越 大 。 

(2) 处 理 速度 (velocity) 快 。 随 着 数据 的 爆炸 式 增长 ,快速 增长 的 数据 量 要 求 数据 处 理 
的 速度 也 要 相应 地 提升 ,才能 使 得 大 量 的 数据 得 到 有 效 的 利用 ,否则 不 断 激增 的 数据 不 但 不 
能 为 解决 问题 带 来 优势 ,反而 成 为 快速 解决 问题 的 负担 。 另 外 ,数据 不 是 静止 不 动 的 ,并 且 
很 多 数据 的 价值 会 随 着 时 间 而 迅速 降低 ,如 果 不 快速 处 理 就 会 失去 价值 ,大 量 的 数据 就 没有 

(3) 数据 类 别 (variety) 丰富 。 大 数据 来 自 多 种 数据 源 ,数据 种 类 和 格式 日 益 丰 富 , 包 括 
结构 化 、 半 结构 化 和 非 结构 化 等 多 种 数据 形式 ,如 网 络 日 志 、 音 视频 、 图 片 等 。 

(4) 数据 应 具有 真实 性 (veracity) 。 研 究 大 数据 就 是 从 庞大 的 网 络 数据 中 提取 出 能 够 
解释 和 预测 现实 事件 的 过 程 。 

(5) 价值 密度 低 , 商 业 价 值 (value) 高 。 数 据 价值 密度 低 是 大 数据 关注 的 非 结构 化 数据 
的 重要 属性 。 大 数据 为 了 获取 事物 的 全 部 细节 ,不 对 事物 进行 抽象 归纳 等 处 理 , 直接 采用 
原始 的 数据 ,保留 了 数据 的 原貌 ,因此 在 呈现 数据 全 部 细节 的 同时 也 引入 了 大 量 没有 意义 、 
甚至 错误 的 信息 ,因此 相对 于 特定 的 应 用 ,大 数据 关注 的 非 结构 化 数据 的 价值 密度 偏 低 。 但 
与 此 同时 ,由 于 大 数据 保留 了 数据 的 所 有 细节 ,所 以 通过 分 析 数 据 可 以 发 现 巨 大 的 商业 
价值 。 


1.1.3 大 数据 处 理 的 挑战 


在 大 数据 时 代 , 数 据 存在 多 源 异 构 、 分 布 广泛 动态 增长 . 先 有 数据 后 有 模式 等 诸多 特 
点 。 正 是 这 些 与 传统 数据 处 理 不 同 的 特点 ,使 得 大 数据 时 代 的 数据 管理 面临 新 的 挑战 。 在 
应 对 处 理 大 数据 时 代 的 各 种 技术 挑战 过 程 中 ,以 下 几 个 方面 的 问题 需要 高 度 关注 口 。 

CD 数据 的 异 构 性 和 不 完备 性 问题 。 大 数据 的 广泛 存在 和 来 源 的 多 样 性 使 得 数据 越 来 
越 多 分 散在 不 同 的 数据 管理 系统 中 ,而 且 对 于 非 结 构 化 和 半 结 构 化 的 数据 ,不 能 用 已 有 的 简 
单数 据 结构 来 描述 它们 。 因 此 ,如 何 将 多 源 异 构 的 数据 集成 在 一 起 是 大 数据 处 理 的 一 个 重 
要 挑战 。 数 据 的 不 完备 性 是 指 在 大 数据 条 件 下 所 获取 的 数据 常常 包含 一 些 不 完整 的 信息 和 
错误 的 数据 ,在 进行 大 数据 分 析 之 前 必须 对 数据 的 不 完备 性 进行 有 效 处 理 才 能 分 析出 有 价 
值 的 信息 ,这 个 处 理 通常 在 数据 采集 和 预 处理 阶 段 完成 。 

(2) 数据 处 理 的 时 效 性 问题 。 随 着 半 结 构 化 和 非 结构 化 数据 的 迅猛 增长 ,给 传统 数据 
分 析 处 理 带 来 巨大 的 冲击 和 挑战 。 随 着 时 间 的 流逝 ,数据 中 所 蕴含 的 知识 价值 也 随 之 衰减 。 
因此 ,大 数据 处 理 的 速度 非常 重要 ,一 般 来 讲 , 数 据 规模 越 大 ,分 析 处 理 的 时 间 就 会 越 长 ,而 
在 很 多 情况 下 用 户 要 求 立 即 得 到 数据 的 分 析 结 果 。 大 数据 要 求 为 复杂 结构 的 数据 建立 合 
的 索引 结构 ,这 要 求索 引 结构 的 设计 要 简单 .高效 ,而 且 能 在 数据 模式 发 生变 化 时 很 快 地 进 











行 调 整 适应 。 在 数据 模式 变更 的 假设 前 提 下 ,设计 新 的 索引 方案 将 是 大 数据 处 理 的 主要 挑 
战 之 一 。 

C3) 数据 的 安全 与 隐私 保护 问题 。 大 数据 的 隐私 保护 既是 技术 问题 也 是 社会 学 问题 ， 
需要 学 术 界 、 商 业界 和 政府 部 门 共同 参与 。 随 着 民众 隐私 意识 的 日 益 增强 ,合法 合 规 地 获取 
数据 分 析 数 据 和 应 用 数据 是 进行 大 数据 分 析 时 必须 遵循 的 原则 。 大 数据 时 代 的 安全 与 传 
统 安全 相 比 , 变 得 更 加 复杂 ,面临 更 多 挑战 。 如 何在 大 数据 环境 下 确保 信息 共享 的 安全 性 和 
如 何 为 用 户 提 供 更 精细 的 数据 共享 安全 策略 等 问题 值得 深入 研究 。 

OD 大 数据 能 耗 问题 。 随 着 大 数据 规模 的 不 断 扩张 ,数据 中 心 存储 规模 也 不 断 扩大 ,高 
能 耗 已 逐渐 成 为 制约 大 数据 快速 发 展 的 一 个 主要 瓶颈 。 要 达到 低 成 本 、 低 能 耗 、 高 可 靠 性 目 
标 , 通 常 要 用 到 元 余 配 置 .分布 式 并 行 计算 等 技术 。 大 数据 管理 系统 的 能 耗 主 要 包括 硬件 能 
耗 和 软件 能 耗 ,二 者 中 又 以 硬件 能 耗 为 主 。 解 决 能 耗 问题 采取 的 手段 包括 : 采用 新 型 低 功 
耗 硬件 ; 建立 计算 核心 与 二 级 缓存 的 直通 通道 ; 从 应 用 、 编 译 器 、 体 系 结构 等 多 方面 协同 优 
化 ; 引入 可 再 生 的 新 能 源 等 。 

(5) 大 数据 管理 易 用 性 问题 。 在 大 数据 时 代 , 数 据 的 数量 和 复杂 度 的 提高 对 数据 的 处 
理 、 分 析 、 理 解 和 呈现 带 来 极 大 的 挑战 。 从 开始 的 数据 集成 到 数据 分 析 , 到 最 后 的 数据 解释 
过 程 , 易 用 性 贯穿 于 整个 大 数据 处 理 的 流程 。 易 用 性 的 挑战 表现 在 两 个 方面 : 首先 ,大 数据 
的 数据 量 大 ,分 析 更 复杂 ,得 到 的 结果 更 加 多 样 化 ,其 复杂 程度 已 经 远 远 超 出 传统 的 关系 数 
据 库 ; 其 次 ,大 数据 复杂 的 分 析 过 程 制约 了 各 行 各 业 从 大 数据 中 获取 知识 的 能 力 ,大 数据 分 
析 结 果 的 可 视 化 呈现 将 是 大 数据 管理 易 用 性 的 又 一 大 挑战 。 


1.2 大 数据 挖掘 


要 理解 大 数据 挖掘 ,首先 要 搞 清楚 数据 挖掘 的 含义 。 数 据 挖掘 (Data Mining, DM) 又 称 
数据 库 中 的 知识 发 现 (Knowledge Discover in Database. KDD) ,是 涉及 机 器 学 习 、 人 工 智 
能 ,数据 库 理论 以 及 统计 学 等 学 科 的 交叉 研究 领域 。 数 据 挖掘 就 是 从 数据 库 的 大 量 数据 中 
挖掘 出 有 用 的 信息 , 即 从 大 量 的 ,不 完全 的 \ 有 噪声 的 、 模 糊 的 .随机 的 实际 应 用 数据 中 ,发现 
隐 仿 的、 规律 性 的 ,人们 事先 未 知 的 ,但 又 是 潜在 有 用 的 并 且 最 终 可 理解 的 信息 和 知识 的 非 
平凡 过 程 。 数 据 挖掘 所 挖掘 的 知识 类 型 包括 模型 规律 ,规则 、 模 式 、 约 束 等 。 所 谓 事先 未 知 
的 信息 ,是 指 该 信息 是 预先 未 曾 预 料 到 的 , 即 信息 的 新 颖 性 。 数 据 挖掘 就 是 要 发 现 那些 不 能 
靠 直觉 发 现 的 .甚至 是 违背 直觉 的 信息 或 知识 ,挖掘 出 的 信息 越 是 出 平 意料 就 可 能 越 有 价 
值 。 潜 在 有 用 性 是 指 发 现 的 知识 将 来 有 实际 效用 , 即 这 些 信息 或 知识 对 于 所 讨论 的 业务 或 
研究 领域 是 有 效 的 、 有 实用 价值 的 和 可 实现 的 。 一 般 而 言 , 常 识 性 的 结论 或 已 被 人 们 掌握 的 
事实 或 无 法 实现 的 推测 都 是 没有 意义 的 。 最 终 可 理解 性 要 求 发 现 的 模式 能 被 用 户 理解 , 目 
前 它 主要 体现 在 简洁 性 上 , 即 发 现 的 知识 要 可 接受 、 可 理解 ,可 运用 ,最 好 能 用 自然 语言 表达 
所 发 现 的 结果 。 非 平凡 通常 是 指数 据 挖掘 过 程 不 是 线性 的 ,在 挖掘 过 程 中 有 反复 有 循环 ， 
所 挖掘 的 知识 往往 不 易 通过 简单 的 分 析 就 能 够 得 到 ,这 些 知识 可 能 隐 含 在 表面 现象 的 内 部 ， 
需要 经 过 大 量 数据 的 比较 分 析 , 必 要 时 要 应 用 一 些 专门 处 理 大 数据 量 的 数据 挖掘 工具 。 数 
据 挖掘 是 一 种 决策 支持 过 程 , 它 主要 基于 人 工 智能 .机 器 学 习 、 模 式 识别 .统计 学 、 数 据 库 、 可 
视 化 技术 等 ,高 度 自动 化 地 分 析 企 业 的 数据 ,做 出 归纳 性 的 推理 ,从 中 挖掘 出 潜在 的 模式 , 帮 
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助 决策 者 调整 市 场 策略 ,减少 风险 ,做 出 正确 的 决策 。 

数据 挖掘 主要 有 数据 准备 、 规 律 寻找 和 规律 表示 3 个 步骤 。 数 据 准备 是 从 相关 的 数据 
源 中 选取 所 需 的 数据 并 整合 成 用 于 数据 挖掘 的 数据 集 ; 规律 寻找 是 用 某 种 方法 将 数据 集 所 
含 的 规律 找 出 来 ; 而 规律 表示 是 尽 可 能 地 以 用 户 可 理解 的 方式 (如 可 视 化 ) 将 找 出 的 规律 表 
示 出 来 。 


1.2.1 大 数据 挖掘 的 定义 


由 于 大 数据 存在 复杂 \ 高 维 、 多 变 等 特性 ,如 何 从 真实 、` 凌 乱 、 无 模式 和 复杂 的 大 数据 中 
挖掘 出 人 类 感 兴趣 的 知识 ,迫切 需要 更 深刻 的 机 器 学 习 理 论 进行 指导 。 目 前 包含 大 规模 数 
据 的 机 器 学 习 问 题 是 普遍 存在 的 ,但 是 由 于 现 有 的 许多 机 器 学 习 算 法 是 基于 内 存 的 ,而 大 数 
据 是 无 法 装载 到 计算 机 内 存 的 ,因此 现 有 的 诸多 算法 不 能 直接 处 理 大 数据 ,如 何 提出 新 的 机 
器 学 习 算法 以 适应 大 数据 处 理 的 需求 ,是 大 数据 时 代 的 研究 热点 方向 之 一 。 

大 数据 环境 下 ,数据 挖掘 的 对 象 ( 即 数 据 ) 有 了 新 的 特征 ,这 决定 大 数据 挖掘 将 被 赋予 新 
的 含义 ,也 产生 了 新 的 挖掘 算法 和 模型 。 大 数据 挖掘 是 指 从 大 数据 集中 寻找 其 规律 的 技 
术 中 。 这 个 概念 将 大 数据 挖掘 对 象 强调 为 “大 数据 集 ”, 而 在 大 数据 集中 ,“ 寻 找 ” 变 得 更 具有 
挑战 性 ,因为 大 数据 具有 数据 体 量 巨 大 、 处 理 速 度 要 快 .数据 类 别 丰 富 、 高 价值 、 低 密度 等 特 
点 ,挖掘 起 来 自然 更 加 不 容易 。 


1.2.2 大 数据 挖掘 的 特点 


大 数据 的 “5V” 特 点 决定 了 大 数据 挖掘 技术 有 了 新 的 内 涵 。 大 数据 挖掘 技术 包括 : 高 
性 能 计算 支持 的 分 布 式 、 并 行 数据 挖掘 技术 ; 面向 多 源 . 不 完整 数据 的 不 确定 数据 挖掘 技 
术 ; 面向 非 结 构 化 稀疏 性 的 超 高 维 数据 挖掘 技术 ; 面向 商业 价值 高 但 价值 密度 低 特征 的 特 
异 群 组 挖掘 技术 以 及 面向 动态 数据 的 实时 、 增 量 数据 挖掘 技术 等 中 。 具 体 而 言 ,包括 如 下 
特点 外。 

1.“Volume” 与 分 布 式 并 行 数据 挖掘 算法 研究 

大 数据 的 “大 ”通常 指 PB 级 以 上 的 ,这 一 特点 决定 了 大 数据 挖掘 需要 高 性 能 计算 支持 
的 分 布 式 并 行 技术 。 考 虑 到 大 规模 数据 的 分 布 式 、 并 行 处 理 ,对 数据 挖掘 技术 带 来 的 挑战 是 
I/O 交换、 数据 移动 的 代价 高 ,还 需要 在 不 同 站 点 间 分 析 数 据 挖掘 模型 间 的 关系 。 

2.“Variety” 与 不 确定 数据 挖掘 算法 研究 

“Variety” 的 含义 之 一 就 是 "多 源 的 ”。 不 同 数据 源 的 数据 由 于 数据 获取 设备 和 方式 不 
同 ,挖掘 的 数据 对 象 常常 具有 不 确定 、. 不 完整 的 特点 ,这 要 求 大 数据 挖掘 技术 能 够 处 理 不 确 
定 \ 不 完整 的 数据 集 。 由 于 大 数据 获取 过 程 中 数据 缺失 、 含 有 噪声 难以 避免 ,数据 填充 、 补 齐 
是 困难 的 ,因此 大 数据 挖掘 技术 要 有 更 强 的 处 理 不 确定 、 不 完整 数据 集 的 能 力 。 

3.“Variety” 与 基于 语义 的 异 构 数 据 挖掘 算法 研究 

“Variety” 的 第 二 个 含义 是 “ 异 构 的 "。 大 数据 的 组 织 结构 包括 结构 化 、 非 结构 化 和 半 结 
构 化 ,这 种 多 变 的 形式 使 得 大 数据 更 多 地 以 数据 网 络 的 形式 组 织 。 大 数据 下 的 数据 网 络 结 
点 类 型 多 样 , 路 径 表 达 有 多 种 语义 。 理 解 语义 .体现 语义 是 相似 性 定义 和 计算 的 重要 需求 ， 
是 提升 数据 挖掘 质量 的 关键 因素 。 




















4.“Variety” 与 非 结 构 化 、 超 高 维 、 稀 朴 数 据 挖 掘 算法 研究 

“Variety” 的 第 三 个 含义 是 "复杂 的 ”。 大 数据 环境 下 ,来 自 网 络 文本 (用 户 评论 文本 数 
据 )、 图 像 、 视 频 的 数据 挖掘 应 用 更 加 广泛 , 非 结构 化 数据 给 数据 挖掘 技术 带 来 了 新 的 要 求 。 
特征 提取 是 非 结构 化 数据 挖掘 的 重要 步 又 ,大 数据 挖掘 算法 设计 要 考虑 超 高 维特 征 和 稀 
Bite. 

5.“Velocity” 与 实时 、 增 量 数据 挖掘 算法 研究 

大 数据 时 代 的 数据 爆炸 性 增长 ,并 且 数 据 是 动态 演变 的 ,这 就 要 求 数据 处 理 的 速度 一 定 
要 快 。 时 序数 据 挖掘 是 数据 挖掘 领域 的 一 个 研究 主题 ,很 多 领域 对 数据 挖掘 的 速度 有 更 高 
的 要 求 , 如 实时 在 线 精准 广告 投放 ,证 券 市 场 高 频 交 易 等 。 

6. “Value” 与 聚 类 , 非 平 衡 分 类 异常 挖掘 算法 研究 

“Value” 的 含义 是 “商业 价值 高 .价值 密度 低 ”。 大 数据 环境 下 产生 了 新 的 数据 挖掘 任 
务 , 如 特异 群 组 分 析 。 特 异 群 组 是 一 类 低 密度 、 高 价值 的 数据 , 它 是 指 在 众多 行为 对 象 中 , 少 
数 对 象 群体 具有 一 定数 量 的 相同 (或 相似 ) 行 为 模式 ,表现 出 相 异 于 大 多 数 对 象 而 形成 异常 
的 群 组 。 特 异 群 组 挖掘 问题 既 不 是 异常 点 挖掘 (只 发 现 孤 立 点 ), 也 不 是 聚 类 问题 (将 大 部 分 
数据 分 组 ) 。 


1.3 大 数据 挖掘 的 相关 方法 


在 大 数据 环境 下 , 面 对 “ 商 业 价值 高 .价值 密 度 低 ” 的 大 数据 集 ,大 数据 挖掘 增加 了 一 项 
新 任务 , 即 特异 群 组 分 析 中 。 因 此 ,大 数据 挖掘 涉及 的 相关 内 容 包 括 数据 预 处 理 技术 、 关 联 
规则 挖掘 、 分 类 、 聚 类 、 异 常 检测 \ 演 变 分 析 、 特 异 群 组 分 析 及 各 种 场景 下 的 应 用 。 


1.3.1 数据 预 处 理 技术 


数据 预 处 理 (Data Preprocessing) 是 指 在 对 数据 进行 数据 挖掘 的 主要 处 理 以 前 , 先 对 原 
始 数据 进行 必要 的 采样 清理、 集成 转换,. 归 约 、 特 征 选择 和 提取 等 一 系列 的 处 理工 作 ,以 达 
到 挖掘 算法 进行 知识 获取 研究 所 要 求 的 最 低 规 范 和 标准 。 这 部 分 内 容 将 在 第 2 章 进行 详细 
介绍 。 


1.3.2 关联 规则 挖掘 


关联 分 析 (Association Analysis) 就 是 从 给 定 的 数据 集中 发 现 频 繁 出 现 的 项 集 模式 知 
识 , 又 称 为 关联 规则 (Association Rules)。 关 联 分 析 广 泛 应 用 于 市 场 营 销 、 事 务 分 析 等 
领域 。 

通常 关联 规则 具有 XY 形式 , 即 “Al A A; A A ALBI AB: AA Ba” 的 规则 ,其 
中 ,Ai(iE {1,2,…,m}),Bj;(jE1{1,2,…,n)) 均 为 属性 - 值 的 形式 。 关 联 规则 X9 Y 表示 
“数据 库 中 的 满足 X 中 条 件 的 记录 (tuples) 也 一 定 满足 Y 中 的 条 件 ”。Apriori 算法 是 关联 
规则 挖掘 中 的 重要 算法 ,将 在 第 3 章 介 绍 。 


1.3.3 分 类 
分 类 (classification) 就 是 找 出 一 组 能 够 描述 数据 集合 典型 特征 的 模型 (或 函数 ) ,以便 
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能 够 分 类 识别 未 知 数据 的 归属 或 类 别 (class) ,即将 未 知事 例 映 射 到 某 种 离散 类 别 之 一 。 
分 类 模式 (或 函数 ) 可 以 通过 分 类 挖掘 算法 从 一 组 训练 样本 数据 (其 类 别 归属 已 知 ) 中 学 
AES. 

分 类 可 以 用 来 预测 数据 对 象 的 类 标记 。 然 而 ,在 某 些 应 用 中 ,人 们 可 能 希望 预测 某 些 空 
缺 或 未 知 的 数据 值 ,而 不 是 类 标记 。 当 被 预测 的 值 是 数据 数值 时 ,通常 称 之 为 回归 或 预测 
(prediction), 58 5 章 介绍 KNN 算法 ,第 6 章 介绍 朴素 贝 叶 斯 分 类 算法 ,第 7 章 介绍 随机 森 
林 分 类 算法 ,第 8 章 介绍 支持 向 量 机 ,第 9 章 介绍 人 工 神经 网 络 分 类 算法 ,第 10 章 介 绍 决策 
树 分 类 算法 ,它们 都 是 经 典 的 分 类 算法 。 


1.3.4 RŽ 


JR 254) Wr (clustering analysis) 与 分 类 预测 方法 的 明显 不 同 之 处 在 于 : 后 者 所 学 习 获 得 
分 类 预测 模型 所 使 用 的 数据 是 已 知 类 别 属性 (class-labeled data) ,属于 有 监督 学 习 方法 ; 而 
聚 类 分 析 ( 无 论 是 在 学 习 还 是 在 归 类 预测 时 ) 所 分 析 处 理 的 数据 均 是 无 (事先 确定 ) 类 别 归属 
的 。 类 别 归属 标志 在 聚 类 分 析 处 理 的 数据 集中 是 不 存在 的 , 聚 类 也 便于 将 观察 到 的 内 容 分 
类 编制 (taxonomy formation) 成 类 分 层 结构 ,把 类 似 的 事件 组 织 在 一 起 。 第 11 章 将 介绍 K- 
means 聚 类 算法 ,第 12 章 将 介绍 K- 中 心 点 聚 类 算法 ,第 13 章 将 介绍 自 组 织 神经 网 络 聚 类 
算法 ,第 14 章 将 介绍 DBSCAN 聚 类 算法 。 


1.3.5 孤立 点 挖掘 


数据 库 中 可 能 包含 一 些 与 数据 的 一 般 行 为 或 模型 不 一 致 的 数据 对 象 , 这 些 数据 对 象 被 
称 为 孤立 点 (Outlier) 。 大 部 分 数据 挖掘 方法 将 孤立 点 视 为 噪声 或 异常 而 丢弃 ,然而 在 一 些 
应 用 场合 ,如 各 种 商业 欺诈 行为 的 自动 检测 中 ,小 概率 发 生 的 事件 (数据 ) 往 往 比 经 常 发 生 的 
事件 (数据 ) 更 有 挖掘 价值 。 孤 立 点 数据 分 析 通 常 称 作 孤 立 点 挖掘 (Outlier Mining) 。 

孤立 点 可 以 使 用 统计 试验 检测 。 它 假定 一 个 数据 分 布 或 概率 模型 ,并 使 用 距离 进行 度 
量 , 到 其 他 聚 类 的 距离 很 大 的 对 象 被 视 为 孤立 点 。 基 于 偏差 的 方法 通过 考查 一 群 对 象 主要 
特征 上 的 差别 来 识别 孤立 点 ,而 不 是 使 用 统计 或 距离 度量 。 


1.3.6 演变 分 析 


数据 演变 分 析 (Evolution Analysis) 就 是 对 随时 间 变 化 的 数据 对 象 的 变化 规律 和 趋势 
进行 建 模 描述 。 这 一 建 模 手 段 包括 概念 描述 、 对 比 概念 描述 、 关 联 分 析 、 分 类 分 析 、 时 间 相 关 
数据 (Time-Related) 分 析 , 时 间 相 关 数 据 分 析 又 包括 时 序数 据 分 析 、 序 列 或 周期 模式 匹配 及 
基于 相似 性 的 数据 分 析 等 。 


1.3.7 特异 群 组 分 析 

特异 群 组 分 析 是 发 现 数据 对 象 集中 明显 不 同 于 大 部 分 数据 对 象 ( 不 具有 相似 性 ) 的 数据 
对 象 ( 称 为 特异 对 象 ) 的 过 程 。 一 个 数据 集中 大 部 分 数据 对 象 不 相似 , 而 每 个 特异 群 组 中 的 
对 象 是 相似 的 ,这 是 一 种 大 数据 环境 下 新 型 的 数据 挖掘 任务 "。 





1.4 大 数据 挖掘 类 型 


1.4.1 Web 数据 挖掘 


随 着 互联 网 上 信息 不 断 呈 现 爆 炸 式 的 增长 ,互联 网 企业 在 这 些 海 量 的 数据 信息 面前 显 
得 更 加 手足 无 措 ,合理 利用 网 络 上 面 的 数据 信息 来 提高 网 站 的 用 户 体验 成 为 了 首要 需求 。 
有 需求 就 有 进步 ,数据 挖掘 技术 就 这 样 被 引入 了 互联 网 领域 ,从 而 发 展 成 为 一 个 独立 的 研究 
方向 一 一 Web 数据 挖掘 。 

Web 数据 挖掘 就 是 传统 数据 挖掘 技术 在 互联 网 领域 的 应 用 , 它 的 目标 就 是 从 大 量 的 、 
含 噪声 的 无 结构 化 的 网 络 数据 中 提取 出 潜藏 在 背后 的 、 有 价值 的 知识 。Web 数据 挖掘 根 
据 研究 对 象 的 不 同 ,可 以 分 为 基于 网 页 内 容 的 挖掘 .基于 用 户 使 用 习惯 的 挖掘 和 基于 网 页 结 
构 的 挖掘 三 类 ,它们 各 自 应 用 的 算法 和 应 用 领域 如 图 1-1 所 示 。 
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图 1-1 Web 数据 挖掘 的 分 类 


1. 基于 网 页 内 容 的 挖掘 

基于 网 页 内 容 的 挖掘 是 指 通过 对 网 页 中 的 文档 数据 和 内 容 进行 挖掘 并 获取 知识 的 过 
程 。 目 前 的 Web 数据 挖掘 要 求 对 网 页 中 的 各 类 内 容 信息 都 能 加 以 处 理 。 从 网 页 内 容 的 角 
度 来 讲 , 基 于 网 页 内 容 的 挖掘 可 以 分 为 多 媒体 信息 挖掘 和 文档 信息 挖掘 两 种 ; 按照 采用 方 
法 的 不 同 , 它 又 可 以 分 为 信息 抽取 方法 和 数据 库 方法 两 种 。 信 息 抽取 方法 指 的 是 利用 信息 
抽取 技术 来 处 理 无 结构 或 半 结 构 的 网 页 数据 ,提高 和 优化 搜索 信息 的 质量 。 数 据 库 方法 指 
的 是 首先 利用 数据 转换 技术 将 无 结构 的 数据 转换 成 数据 库 对 应 的 有 结构 的 数据 ,然后 再 利 
用 数据 挖掘 技术 对 数据 进行 挖掘 。 
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2. 基于 用 户 使 用 习惯 的 挖掘 

用 户 日 常 访问 网 络 时 会 产生 大 量 的 记录 信息 ,而 网 络 服务 器 会 自动 地 记录 并 存储 下 这 
些 信息 ,这 些 信息 中 记录 了 用 户 的 访问 网 址 .访问 时 间 、 传 输 的 内 容 和 用 户 IP 地 址 等 数据 。 
这 些 数据 一 般 存 储 在 用 户 的 访问 日 志文 件 中 , 它 通 常 能 够 反映 出 用 户 的 访问 规律 .个 人 兴趣 
和 整体 上 网 行为 。 基 于 用 户 使 用 习惯 的 挖掘 所 研究 的 对 象 就 是 用 户 访问 日 志文 件 , 通 过 挖 
掘 日 志 数 据 来 预测 用 户 的 上 网 行为 和 趋势 等 。 基 于 用 户 使 用 习惯 的 挖掘 可 以 分 为 个 性 化 挖 
据 和 用 户 访问 模式 挖掘 两 类 。 个 性 化 挖掘 主要 针对 于 研究 个 人 的 偏好 ,其 目的 就 是 为 不 同 
访问 模式 的 用 户 提供 不 同 的 动态 化 的 服务 建议 ; 而 用 户 访问 模式 挖掘 主要 是 通过 分 析 用 户 
的 访问 日 志 , 来 总 结 用 户 的 访问 习惯 和 倾向 ,发 现 网 页 空间 最 高 效 的 逻辑 结构 。 

3. 基于 网 页 结构 的 挖掘 

基于 网 页 结构 的 挖掘 就 是 通过 研究 站 点 之 间 的 组 织 关 系 、 相 互 引 用 和 链接 的 关系 以 及 
网 页 的 文档 结构 来 挖掘 出 知识 。 基 于 网 页 内 容 的 挖掘 对 象 主要 是 内 部 网 页 文档 ,而 基于 网 
页 结构 的 挖掘 对 象 主要 是 外 部 引用 和 超 链 接 的 结构 。 它 的 挖掘 目的 是 寻找 潜藏 在 网 页 结构 
背后 的 有 用 模式 ,通过 对 网 页 的 应 用 和 超 链 接 进行 分 析 来 找 出 权威 的 页 面 , 并 发 现 网 页 的 结 
构 , 以 便 用 户 阅读 。 


1.4.2 空间 数据 挖掘 


空间 数据 是 人 们 借以 认识 自然 和 改造 自然 的 重要 数据 。 空 间 数据 库 含 有 空间 数据 和 非 
空间 数据 ,空间 数据 可 以 是 地 表 在 地 理 信息 系统 (Geography Information System,GIS) 中 的 
二 维 投影 ,也 可 以 是 分 子 生 物 学 中 的 蛋白 质 分 子 结构 等 ; 非 空间 数据 则 是 除 空间 数据 以 外 
的 一 切 数据 。 所 以 ,也 可 以 认为 空间 数据 库 是 通用 的 数据 库 , 其 他 数据 库 是 空间 数据 库 的 特 

由 于 雷达 、 红 外 光电、 卫星 .电视 摄像 .电子 显 微 成 像 .CT 成 像 等 各 种 宏观 与 微观 传 感 
器 的 使 用 ,空间 数据 的 数量 ,大 小 和 复杂 性 都 在 飞快 地 增长 ,已 经 远 远 超出 了 人 的 解 译 能 力 ， 
终端 用 户 不 可 能 详细 地 分 析 所 有 的 这 些 数据 ,并 提取 感 兴趣 的 空间 知识 。 因 此 ,利用 空间 数 
据 挖掘 和 知识 发 现 (Spatial Data Mining and Knowledge Discovery，SDMKD) 从 空间 数据 
库 中 自动 或 半自动 地 挖掘 隐藏 在 空间 数据 库 中 的 不 明确 的 、 隐 含 的 知识 变 得 越 来 越 重 要 。 

空间 数据 挖掘 (spatial data mining) 也 称 基 于 空间 数据 库 的 数据 挖掘 ,作为 数据 挖掘 的 
一 个 新 的 分 支 , 它 是 在 空间 数据 库 的 基础 上 ,综合 利用 统计 学 方法 、 模 式 识 别 技术 、 人 工 智能 
方法 、 神 经 网 络 技术 .粗糙 集 、 模 糊 数学 .机 器 学 习 、 专 家 系统 等 技术 和 方法 ,从 大 量 的 空间 数 
据 ( 例 如 ,生产 数据 ,管理 数据 .经 营 数据 或 遥感 数据 ) 中 分 析 获 取 人 们 可 信 的 、 新 颖 的 、 感 兴 
趣 的 、 隐 藏 的 .事先 未 知 的 、 潜 在 有 用 的 和 最 终 可 理解 的 知识 。 简 单 地 讲 , 空 间 数据 挖掘 是 指 
从 空间 数据 库 中 提取 隐 含 的 .用户 感 兴趣 的 空间 和 非 空 间 的 模式 .普遍 特征 .规则 和 知识 的 过 
程 。 由 于 空间 数据 的 复杂 性 ,空间 数据 挖掘 不 同 于 一 般 的 事务 数据 挖掘 , 它 有 如 下 一 些 特点 。 

COD 数据 源 十 分 丰富 .数据 量 非常 庞大 .数据 类 型 多 , 存 取 方 法 复杂 。 

(2) 涉及 领域 十 分 广泛 , 凡 与 空间 位 置 相 关 的 数据 都 可 对 其 进行 挖掘 。 

(3) 挖掘 方法 和 算法 非常 多 ,而 且 大 多 数 算法 比较 复杂 ,难度 大 。 

(4) 知识 的 表达 方式 多 样 ,对 知识 的 理解 和 评价 依赖 于 人 对 客观 世界 的 认 知 程度 。 

空间 数据 挖掘 系统 可 以 分 为 三 层 结构 ,如 图 1-2 所 示 。 
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图 1-2 空间 数据 挖掘 的 体系 结构 
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第 一 层 是 数据 源 , 指 利用 空间 数据 库 或 数据 仓库 管理 系统 提供 的 索引 、 查 询 优化 等 功能 
获取 和 提炼 的 与 问题 领域 相关 的 数据 ,或 直接 存储 在 空间 数据 立方 体 中 的 数据 ,这 些 数据 可 
称 为 数据 挖掘 的 数据 源 或 信息 库 。 在 这 个 过 程 中 ,用 户 直接 通过 空间 数据 库 ( 数 据 仓库 ) 管 
理工 具 交互 地 选取 与 任务 相关 的 数据 ,并 将 查询 和 检索 的 结果 进行 必要 的 可 视 化 分 析 , 多 次 
反复 ,提炼 出 与 问题 领域 有 关 的 数据 ,或 通过 空间 数据 立方 体 的 聚集 、 上 钼 、 下 翻 、 切 块 、 旋 转 
等 分 析 操 作 ,抽取 与 问题 领域 有 关 的 数据 ,然后 再 开始 进行 数据 挖掘 和 知识 发 现 过 程 。 

第 二 层 是 挖掘 器 ,利用 空间 数据 挖掘 系统 中 的 各 种 数据 挖掘 方法 分 析 被 提取 的 数据 ,一 
般 采 用 交互 方式 ,由 用 户 根据 问题 的 类 型 以 及 数据 的 类 型 和 规模 ,选用 合适 的 数据 挖掘 方 
法 。 但 对 于 某 些 特定 的 专门 的 数据 挖掘 系统 ,可 采用 系统 自动 地 选用 挖掘 方法 的 方式 。 

第 三 层 是 用 户 界 面 ,使 用 多 种 方式 (如 可 视 化 工具 ) 将 获取 的 信息 和 发 现 的 知识 以 便于 
用 户 理解 和 观察 的 方式 反映 给 用 户 , 用 户 对 发 现 的 知识 进行 分 析 和 评价 ,并 将 知识 提供 给 空 
间 决 策 支持 使 用 ,或 将 有 用 的 知识 存 入 领域 知识 库 内 ,在 整个 数据 挖掘 过 程 中 ,用 户 能 够 控 
制 每 一 步 。 

一 般 说 来 ,数据 挖掘 和 知识 发 现 的 多 个 步骤 相互 连接 ,需要 反复 进行 人 机 交互 ,才能 得 
到 最 终 满意 的 结果 。 显 然 ,在 整个 数据 挖掘 过 程 中 ,良好 的 人 机 交互 用 户 界面 是 顺利 进行 数 
据 挖掘 并 取得 满意 结果 的 基础 。 


1.4.3 流 数 据 挖掘 


传统 的 数据 管理 系统 只 能 用 于 处 理 永 久 的 数据 和 进行 瞬时 的 查询 ,早已 不 能 满足 这 个 
信息 时 代 对 于 数据 库 技 术 的 要 求 。 随 着 计算 机 硬件 .网络 通 信 等 技术 的 飞速 发 展 , 产 生 了 一 
种 新 型 的 数据 类 型 , 即 流 数 据 。 与 传统 的 数据 管理 系统 相 比 , 流 数据 具有 一 系列 优越 性 ,使 
得 对 流 数据 进行 数据 挖掘 非常 重要 和 必要 。 近 年 来 , 流 数据 挖掘 技术 已 发 展 成 为 现代 数据 
库 技术 研究 的 一 个 重要 方向 ,引起 了 众多 科研 学 者 的 关注 和 进一步 研究 。 

流 数据 是 一 个 没有 界限 的 数据 序列 ,数据 产生 的 速度 非常 快 。 它 在 任何 时 刻 都 有 大 量 
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的 数据 产生 ,数据 产生 速度 之 快 以 至 于 数据 挖掘 的 速度 赶不上 产生 的 速度 , 且 这 些 数据 的 产 
生 可 以 认为 是 没有 休止 的 。 总 地 来 讲 , 一 个 流 数据 是 连续 、 有 序 、 实 时 、 无 限 的 元 组 序列 。 与 
传统 的 数据 集 相 比 , 流 数 据 具 有 以 下 一 些 主要 特点 。 

CD 数据 连续 不 断 到 达 。 数 据 量 非常 大 ,存储 所 有 数据 的 代价 是 极 大 的 。 

(2) 有 序 性 、 实 时 性 。 流 数据 中 的 元 组 按时 间 有 序 地 到 达 并 实时 地 变化 , 且 变 化 的 速率 
是 无 法 控制 的 。 

(3) 概要 性 。 处 理 流 数据 时 ,要 求 构造 概要 数据 结构 。 

(4) 近似 性 。 也 就 是 说 流 数据 查询 以 及 挖掘 处 理 得 到 的 结果 是 近似 的 。 

(5) 单 遍 处 理性 。 由 于 内 存 的 限制 ,只 能 对 流 数据 进行 单 遍 扫描 ,而 且 数 据 一 经 处 理 ， 
就 不 能 被 再 次 取出 处 理 。 

(6) 即时 性 。 用 户 要 求 得 到 即时 的 处 理 结果 。 

可 以 说 , 流 数据 的 这 些 特殊 性 为 基于 流 数 据 的 数据 挖掘 关键 技术 及 其 应 用 带 来 了 新 的 
机 遇 和 挑战 ,具有 非常 重要 的 现实 意义 。 

在 人 们 的 现实 生活 中 的 流 数据 挖掘 是 很 常见 的 ,尤其 是 随 着 信息 技术 的 不 断 发 展 , 流 数 
据 以 不 同 的 方式 出 现在 了 许多 领域 的 应 用 之 中 ,主要 包括 网 络 监控 ,传感器 等 航天 科技 、 股 
票 市 场 金融 市 场 等 。 目 前 , 流 数据 挖掘 主要 是 应 用 在 上 述 领域 中 需要 处 理 大 量 数据 的 关键 
部 门 。 例 如 ,用 于 零售 业 交易 中 的 流 数据 挖掘 ,可 以 对 促销 活动 的 有 效 性 ,顾客 的 忠诚 度 等 
进行 全 面 分 析 ; 用 于 股票 市 场 的 流 数据 挖掘 ,可 以 帮助 人 们 预测 股市 的 起 伏 ; 用 于 航天 科 
技 中 的 流 数据 挖掘 ,可 以 从 空间 对 象 的 实时 图 像 中 提取 模式 ,从 而 利用 高 度 自 动 化 的 航天 器 
及 传感器 进行 空间 探测 ; 用 于 移动 车 辆 的 监控 和 信息 提取 的 流 数据 挖掘 ,可 以 对 驾驶 员 进 
行 行为 分 析 等 。 可 以 相信 ，, 随 着 我 国 计 算 机 和 通信 等 信息 技术 的 快速 发 展 , 流 数据 挖掘 技术 
将 在 更 多 的 领域 得 到 广泛 应 用 。 

在 现 阶段 , 流 数 据 的 挖掘 技术 与 相关 知识 的 研究 已 成 为 国际 数据 挖掘 领域 的 一 大 热点 ， 
其 在 众多 领域 中 的 应 用 前 景 相当 广阔 。 对 于 流 数 据 挖 掘 技术 ,其 未 来 的 研究 将 会 主要 集中 
在 以 下 几 个 方面 。 

CD 高 维度 实时 流 数据 的 挖掘 。 由 于 大 多 数 真 实 流 数据 都 具有 高 维 性 ,高 维 空间 中 对 
象 分 布 稀疏 ,很 难 识 别 噪声 ,因而 是 一 个 较 难 解决 的 问题 , 仍 需 要 深入 研究 。 

(2) 基于 资源 约束 的 自 适 应 实时 流 数据 聚 类 。 主 要 是 针对 无 线 传 感 网 络 等 资源 约束 环 
境 进行 流 数 据 聚 类 ,由 于 涉及 的 知识 领域 极 广 ,目前 对 这 方面 的 研究 还 处 于 初级 阶段 ,还 需 
要 进一步 研究 。 

总 而 言 之 ,基于 流 数据 的 数据 挖掘 还 有 许多 问题 值得 人 们 去 进一步 研究 和 探讨 ,为 此 ， 
人 们 需要 继续 对 流 数 据 领 域 进行 深入 的 研究 。 


1.5 大 数据 挖掘 的 常见 应 用 


1.5.1 社交 网 络 分 析 


社交 网 络 是 社会 个 体 成 员 之 间 通 过 社会 关系 结 成 的 网 络 体系 。 个 体 也 称 为 结 点 ,可 以 
是 组 织 、 个 人 、 网 络 ID 等 不 同 含义 的 实体 或 虚拟 个 体 ; 而 个 体 间 的 相互 关系 可 以 是 亲友 、 动 





作 行 为 .收发 消息 等 多 种 关系 。 社 交 网 络 分 析 (social network analysis) 是 指 基 于 信息 学 、 数 
学 、 社 会 学 ,管理 学 、 心 理学 等 多 学 科 的 融合 理论 和 方法 ,为 理解 人 类 各 种 社交 关系 的 形成 、 
行为 特点 分 析 及 信息 传播 的 规律 提供 的 一 种 可 计算 的 分 析 方 法 。 

社交 网 络 分 析 最 早 是 由 英国 著名 人 类 学 家 Radcliffe-Brown( 拉 德 克 利夫 -布朗 ) 在 对 社 
会 结构 的 分 析 关 注 中 提出 的 ,他 呼吁 开展 社会 网 络 的 系统 研究 分 析 。 随 着 社会 学 家 、 人 类 学 
家 、 物 理学 家 以 及 数学 家 对 社会 网 络 分 析 的 日 益 深入 ,社交 网 络 分 析 中 形成 的 理论 、 方 法 和 
技术 已 经 成 为 一 种 重要 的 社会 结构 研究 范式 。 由 于 在 线 社交 网 络 具 有 的 规模 庞大 、 动 态 性 、 
匿名 性 、 内 容 与 数据 丰富 等 特性 ,近年 来 以 社交 网 站 、 博 客 、 微 博 等 为 研究 对 象 的 新 兴 在 线 社 
交 网 络 分 析 研 究 得 到 了 蓬勃 发 展 , 在 社会 结构 研究 中 具有 举足轻重 的 地 位 ,第 14 章 将 对 社 
交 网 络 分 析 进 行 介绍 。 


1.5.2. 文本 分 析 


文本 指 的 是 由 一 定 的 符号 或 符 码 组 成 的 信息 结构 体 , 这 种 结构 体 可 采用 不 同 的 表现 形 
态 , 如 语言 的 ,文字 的 、 影 像 的 等 。 文 本 分 析 是 指 对 文本 的 表示 及 其 特征 项 的 选取 , 它 是 文本 
挖掘 、 信 息 检 索 的 一 个 基本 问题 , 它 把 从 文本 中 抽取 出 的 特征 词 进 行 量化 来 表示 文本 信息 。 
由 于 文本 是 非 结 构 化 的 数据 ,要 想 从 大 量 的 文本 中 挖掘 有 用 的 信息 就 必须 首先 将 文本 转化 
为 可 处 理 的 结构 化 形式 。 第 15 章 将 对 文本 分 析 方法 进行 介绍 。 

目前 有 关 文 本 表示 的 研究 主要 集中 于 文本 表示 模型 的 选择 和 特征 词 选择 算法 的 选取 
上 。 用 于 表示 文本 的 基本 单位 通常 称 为 文本 的 特征 或 特征 项 。 特 征 项 必须 具备 一 定 的 特 
Tk. 特征 项 要 能 够 确实 标识 文本 内 容 ; 四 特征 项 具有 将 目标 文本 与 其 他 文本 相 区 分 的 能 
力 ; 加 特征 项 的 个 数 不 能 太 多 ; @ 轩 特征 项 分 离 要 比较 容易 实现 。 在 中 文 文本 中 可 以 采用 
字 、 词 或 短语 作为 表示 文本 的 特征 项 。 相 比较 而 言 , 词 比 字 具有 更 强 的 表达 能 力 , 而 词 和 短 
语 相 比 , 词 的 切 分 难度 比 短语 的 切 分 难度 小 得 多 。 因 此 ,目前 大 多 数 中 文 文本 分 类 系统 都 采 
用 词 作为 特征 项 , 称 作 特征 词 。 这 些 特征 词 作 为 文档 的 中 间 表 示 形 式 , 用 来 实现 文档 与 文 
档 \ 文 档 与 用 户 目标 之 间 的 相似 度 计 算 。 如 果 把 所 有 的 词 都 作为 特征 项 ,那么 特征 向 量 的 维 
数 将 过 于 巨大 ,从 而 导致 计算 量 太 大 ,在 这 样 的 情况 下 ,要 完成 文本 分 类 几乎 是 不 可 能 的 。 
特征 抽取 的 主要 功能 是 在 不 损伤 文本 核心 信息 的 情况 下 ,尽量 地 减少 要 处 理 的 单词 数 ,以 此 
来 降低 向 量 空 间 维 数 , 从 而 简化 计算 ,提高 文本 处 理 的 速度 和 效率 。 文 本 特征 选择 对 文本 内 
容 的 过 滤 和 分 类 、 聚 类 处 理 、 自 动 摘要 以 及 用 户 兴趣 模式 发 现 、 知 识 发 现 等 有 关 方 面 的 研究 
都 有 非常 重要 的 影响 。 通 常 根据 某 个 特征 评估 函数 计算 各 个 特征 的 评分 值 ,然后 按 评分 值 
对 这 些 特征 进行 排序 ,选取 若干 个 评分 值 最 高 的 作为 特征 词 ,这 就 是 特征 抽取 (feature 


selection) 。 


1.5.3 推荐 系统 


推荐 系统 是 利用 电子 商务 网 站 向 客户 提供 商品 信息 和 建议 ,帮助 用 户 决定 应 该 购买 什 
么 产品 ,模拟 销售 人 员 帮 助 客户 完成 购买 过 程 。 推 荐 系统 有 用 户 建 模 模块 .推荐 对 象 建 模 模 
块 和 推荐 算法 模块 3 个 重要 的 模块 ,如 图 1-3 所 示 。 通 用 的 推荐 系统 模型 流程 如 图 1-3 所 
示 。 推 荐 系统 把 用 户 模 型 中 兴趣 需求 信息 和 推荐 对 象 模型 中 的 特征 信息 匹配 ,同时 使 用 相 
应 的 推荐 算法 进行 计算 筛选 ,找到 用 户 可 能 感 兴趣 的 推荐 对 象 ,然后 推荐 给 用 户 。 
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图 1-3 推荐 系统 示意 图 


1.6 常用 的 大 数据 统计 分 析 方 法 


1.6.1 BH 


百 分 位 是 统计 学 术语 ,如 果 将 一 组 数据 从 小 到 大 排序 ,并 计算 相应 的 累计 百 分 位 , 则 某 
一 百 分 位 所 对 应 数据 的 值 就 称 为 这 一 百 分 位 的 百 分 位 数 。 可 表示 为 : 一 组 n 个 观测 值 按 数 
值 大 小 排列 。 如 处 于 p% 位 置 的 值 称 第 p 百 分 位 数 。 百 分 位 常见 的 计算 方法 如 下 。 
方法 1: 
将 原 数据 从 大 到 小 排列 为 ro rostm WE p 个 百 分 位 ms 计算 如 下 。 
XL opti |)» np 不 是 整数 


m, = 
[Fan + apts)» np 是 整数 


其 中 , La 表示 将 实数 a 向 下 取 整 (如 |L4.6 |=4). 
方法 2: 
对 于 已 分 组 的 数据 ,第 m 百 分 位 数 为 











Pa =U td 


其 中 ,p。 为 第 m 百 分 位 数 , N 为 原始 数据 总 数 ,L JI ps. 所 在 组 的 下 线 ,U 为 pw 所 在 组 
的 上 线 ,f A Pm 所 在 组 的 次 数 ,F。 为 大 于 U 的 累计 次 数 ,F 为 小 于 工 的 累计 次 数 ,i 为 每 组 
所 包含 的 情况 个 数 。 

【 例 1.1】 原 数 据 为 4,5,6,0,3,1,4,2,1,4, 求 该 组 数据 的 mas 

解 : 原 数 据 从 大 到 小 排列 为 zy «xo mao HITE HK, BY 0,1,1,2,3,4,4,4,5,6。 则 
TI 5 = Xs) 一 LU) 一 2 。 

[611.2] 某 省 某 年 公务 员 考 试 考生 分 数 分 布 如 表 1-1 所 示 , 预 定 取 考分 居 前 15961] 
考生 进行 面试 选拔 ,请 划 定 面试 分 数 线 。 


表 1-1 考生 成 绩 分 布 表 



























































分 数 分 组 次 数 向 上 累积 次 数 向 下 累积 次 数 向 上 累积 相对 次 数 
95~99 7 1640 7 100% 
90~94 16 1633 23 99.57% 
85~89 53 1617 76 98. 60% 
80~84 78 1564 154 95.37% 
75~79 90 1486 244 90.61% 
70~74 119 1396 363 85.12% 
65~69 159 1277 522 77.8796 
60— 64 156 1118 678 68.17% 
55~59 140 962 818 58. 66% 
50~54 145 822 963 50.12% 
45 一 49 140 677 1103 41.28% 
40~44 135 537 1238 32.74% 
35~39 130 402 1368 24.51% 
30~34 126 272 1494 16.59% 
25~29 78 146 1572 8.90% 
20~24 25 68 1597 4.15% 
15~19 20 43 1617 2.62% 
10~14 16 23 1633 1.40% 

5 一 9 7 7 1640 0. 4394 














解 : 由 于 预定 取 考 分 居 前 15% 的 考生 进行 面试 , 即 有 85% 的 考生 分 数 低 于 划 定 的 分 数 
线 ,由 此 可 知 ,分 数 线 在 70 一 74 这 一 组 中 。 
(N-R) (355 x 1640 — 1277) 
100 100 
Pea LS y di 89,5 is 
所 以 第 85 百 分 位 为 74.4。 


1.6.2 皮尔 森 相 关系 数 


皮尔 森 相 关系 数 (Pearson correlation coefficient) 也 称 皮 尔 森 积 矩 相关 系数 (Pearson 
product-moment correlation coefficient) .是 一 种 线性 相关 系数 。 皮 尔 森 相关 系数 是 用 来 反 
映 两 个 变量 线性 相关 程度 的 统计 量 ,一 般 用 表示 ,用 来 描述 两 个 变量 间 线 性 相关 强 弱 的 程 
度 。r 的 取 值 在 一 1 与 十 1 之 间 , 若 "全 0, 表 明 两 个 变量 是 正 相 关 , 即 一 个 变量 的 值 越 大 , 另 
一 个 变量 的 值 也 会 越 大 ; 若 "天 0, 表 明 两 个 变量 是 负 相 关 , 即 一 个 变量 的 值 越 大 , 另 一 个 变 
量 的 值 反 而 会 越 小 。r 的 绝对 值 越 大 ,表明 相关 性 越 强 。 

定义 1.1: Wa erstes Al yi eyes ttt ,ym 分 别 为 随机 变量 XY 的 观测 值 ,XY 分 别 
为 上 述 数据 的 均值 ,S-、S, 为 标准 差 ,n 为 数据 个 数 , 则 皮尔 森 相 关系 数 n 的 表达 式 如 下 。 


r= (es (ee) 


a i 








x5 = 74.4 








SE- 
ek 
a=} 








标准 差 为 S = SaS, 相 乘 后 正好 与 约 分 。 


e= 
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[5]1.3] # 1-2 为 伦敦 的 月 平均 气温 与 降水 量 。 
表 1-2 伦敦 月 平均 气温 与 降水 表 
月 份 1 2 3 4 5 6 7 8 9 10 11 i2 








月 平均 气温 人 C | 3.8 4 5.8 8 11.3 | 14.4 | 16.5 | 16.2 | 13.8 | 10.8 | 6.7 | 4.7 






































降水 /mm 77.7 | 51.2 | 60.1 | 54.1 | 55.4 | 56.8 | 45 | 55.3 | 67.5 | 73.3 | 76.6 | 79.6 





则 伦敦 市 月 平均 气温 (2) 与 降水 量 (p) 之 间 的 相关 系数 如 下 。 


(ti — 1) (pi — p) 
3 aap — 300. 91 


250. 55 V1508. 34 
Daa PY py? 


_ — 800.91 
15.83 X 38. 84 


因此 ,伦敦 市 的 月 平均 气温 (2) 3 BEZK E Cp) Z I] SE SHAK M B0 HER 
1.6.3 直方 图 


直方 图 (Histogram) 又 称 质量 分 布 图 ,是 一 种 统计 报告 图 ,由 一 系列 高 度 不 等 的 纵向 条 
纹 或 线段 表示 数据 分 布 的 情况 。 一 般 用 横 轴 表示 数据 类 型 , 纵 轴 表示 分 布 情况 。 

绘制 直方 图 的 步骤 如 下 。 

CD 抽取 不 低 于 应 用 要 求 数量 的 样本 。 

@ 统计 样本 数据 的 最 大 最 小 值 

@ 计算 这 组 样本 数据 的 平均 值 和 标准 差 。 

@ 将 样本 分 组 并 计算 各 组 区 间 ,为 了 避免 一 个 数据 可 能 同时 属于 两 个 组 ,因此 将 各 组 
区 间 都 确定 为 左 开 右 闭 的 区 间 。 

© 根据 样本 量 ”在 直方 图 分 组 组 数 中 选取 组 数 上。 一 般 & 的 选择 和 7? 相关 ,根据 经 验 
来 确定 。 表 1-3 是 参考 值 , 不 绝对 。 

© HHH h, h=a/(k—1). 





Tip 





=— 0. 4895 

















© 制作 直方 图 。 
表 1-3 直方 图 分 组 组 数 选用 表 
HAR n 推荐 组 数 
50~100 6~10 
101~250 7—12 
250 以 上 10 一 20 





直方 图 和 柱状 图 的 区 别 是 : 直方 图 一 般 用 来 描述 等 距 数据 或 等 比 数据 ; 柱 形 图 一 般 用 
来 描述 名 称 数据 或 顺序 数据 。 直 观 上 ,直方 图 矩形 之 间 是 衔接 在 一 起 的 ,表示 数据 间 的 数学 
关系 ; 而 柱 形 图 则 留 有 空隙 ,表示 仅 作为 两 个 或 多 个 不 同 的 类 ,而 不 具有 数学 相关 性 质 。 

【 例 1.4] 现 以 某 厂 生产 的 产品 重量 (单位 为 克 ) 为 例 ( 见 表 1-4) ,对 应 用 直方 图 的 步骤 
加 以 说 明 。 








表 1-4 某 厂 生产 的 产品 质量 (单位 : 克 ) 
























































43 28 27 26 33 29 18 24 32 14 
34 22 30 29 22 24 22 28 48 t 
24 29 35 36 30 34 14 42 38 6 
28 32 22 25 36 39 24 18 28 16 
38 36 Zt 20 26 20 18 8 12 37 
40 28 28 12 30 31 30 26 28 47 
42 32 34 20 28 34 20 24 27 24 
29 18 21 46 14 10 21 22 34 22 
28 26 20 38 12 32 19 30 28 19 
30 20 24 35 20 28 24 24 32 40 
对 应 的 直方 图 如 图 1-4 所 示 。 
产品 质量 


1.6.4 THE 
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某 厂 产品 质量 直方 图 
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假设 检验 (hypothesis test) t ff i 3E HE HEM (significance test) ,是 利用 样本 信息 ,根据 
一 定 的 概率 水 准 ,推断 指标 (统计 量 ) 与 总 体 指标 (参数 ) ,不 同样 本 指标 间 的 差别 有 无 意义 
的 统计 分 析 方 法 。 假 设 检验 分 为 参数 检验 和 非 参 数 检验 ,参数 检验 能 充分 利用 样本 信息 , 检 
验 效 率 较 高 。T 检验 也 称 student t 检验 (Student's t test) ,是 常用 的 参数 检验 方法 之 一 , 主 
要 用 于 样本 含量 较 小 (例如 ,nz<30) .总体 标准 差 c 未 知 的 正 态 分 布 资料 。T 检验 是 用 于 小 
样本 (样本 容量 小 于 30) 的 两 个 平均 值 差 异 程度 的 检验 方法 , 它 是 用 工分 布 理 论 来 推断 差异 


发 生 的 概率 ,从 而 判定 两 个 平均 数 的 差异 是 否 显著 。 
1. 单个 样本 的 工 检验 
目的 : 比较 样本 均 数 所 代表 的 未 知 总 体 均 数 w 和 已 知 总 体 均 数 jo。 


t 统计 量 : 


自由 度 : 
适用 条 件 : 


CD 已 知 一 个 总 体 均 数 。 


一 从 一 po 
S//n 


v=n—1 
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(2) 可 得 到 一 个 样本 均 数 及 该 样本 标准 误 。 

(3) 样本 来 自 正 态 或 近似 正 态 总 体 。 

【 例 1.5) 某 样本 中 难产 儿 个 数 z 一 35 ,体重 均值 X —3. 42 ,方差 S—0. 40, IE 26 8 JL 1H 
生体 重 均值 we 一 3. 30( 大 规模 调查 获得 ) , 问 难产 儿 平 均 出 生体 重 与 一 般 婴 儿 的 出 生体 重 相 
同 否 ? 

f 
COD 建立 假设 、 确 定 检验 水 准 a。 

Ho: p= us (难产 儿 与 一 般 婴 儿 出 生体 重 的 总 体 均 数 相等 ;Ho 无 效 假设 ,null hypothesis) 

Hi: pA po (难产 儿 与 一 般 婴 儿 出 生体 重 的 总 体 均 数 不 等 ;Hi 备 择 假设 ,alternative 
hypothesis) , 双 侧 检验 ,检验 水 准 : a = 0.05. 

(2) 计算 检验 统计 量 。 

X— po _ 3.42— 3.30 
S/d/n . 0.40/ V35 

(3) EDAR ME PW. FA. 

查 表 知 Uo, 05/2.34 = 2. 032, t= 1. 77, t< toos s P>0. 05, 按 a= 0. 05 水准 ,不 拒绝 
Ho ,两 者 的 差别 无 统计 学 意义 , 尚 不 能 认为 难产 儿 平 均 出 生体 重 与 一 般 婴 儿 的 出 生体 重 
不 同 。 

2. 配对 样本 t 检验 

配对 t 检验 又 称 成 对 t 检验 (paired t-test) ,是 将 对 子 差 数 d 看 作 变 量 , 先 假设 两 种 处 理 
的 效应 相同 ,mm 一 pe 一 0, 即 对 子 差 值 的 总 体 均 数 jw 二 0, 再 检验 样本 差 数 的 均 数 与 0 之 间 差 
别 有 无 显著 性 ,推断 两 种 处 理 因素 的 效果 有 无 差别 或 某 处 理 因素 有 无 作用 。 由 于 此 种 设计 
使 影响 结果 的 非 被 试 因素 相似 或 相同 ,因而 提高 了 研究 效率 。 

配对 设计 是 将 受 试 对 象 的 某 些 重 要 特征 按 相 近 的 原则 配 成 对 子 ,目的 是 消除 混杂 因素 
的 影响 ,一 对 观察 对 象 之 间 除 了 处 理 因素 /研究 因素 之 外 ,其 他 因素 基本 相同 ,每 对 中 的 两 个 
个 体 随机 给 予 两 种 处 理 。 

(1) 两 种 同 质 对 象 分 别 接受 两 种 不 同 的 处 理 ,如 性 别 、 年 龄 ,体重 ,病情 程 度 相同 配 
成 对 。 

(2) 同一 受 试 对 象 或 同一 样本 的 两 个 部 分 ,分 别 接受 两 种 不 同 的 处 理 自身 对 比 , 即 同一 
受 试 对 象 处 理 前 后 的 结果 进行 比较 。 

目的 : 判断 不 同 的 处 理 是 否 有 差别 。 

适应 条 件 : 

(1) 设计 类 型 是 配对 设计 。 

(2) 数值 变量 的 对 子 差 值 是 正 态 分 布 。 

计算 公式 ， 

















1.77, v=n—1 = 35-1 = 34 








Sa = Sa/ Vn 
公式 中 d 为 各 个 对 子 数值 的 差 数 ,d 为 差 数 的 平均 数 ,Se 为 差 数 的 标准 差 ,Sz 为 差 数 的 
标准 误 ,n 为 对 子 数 ,自由 度 v=n 一 1。 
【 例 1.6】 对 10 名 患者 分 别 用 湿式 热 消化 - 双 硫 脖 法 和 硝酸 -高 锰 酸 钾 冷 消化 法 测定 尿 
铅 , 问 两 法 测 得 结果 有 无 差别 。 用 两 种 方法 测定 尿 铅 的 结果 (molL) 如 表 1-5 所 示 。 
表 1-5 两 种 方法 测定 尿 铅 的 结果 























患者 号 冷 消化 法 热 消化 法 插值 d 
1 2. 41 2.80 —0. 39 0. 1521 
2 12.07 11.24 0. 83 0. 6889 
3 2. 90 3.04 —0.14 0.0196 
4 1.64 1.83 —0.19 0. 0361 
5 2.75 1.88 0.87 0. 7569 
6 1.06 1.45 —0. 39 0. 1521 
合计 Sa = 0.58 Sa = 2.1182 
d=] del 














[m 
CD 建立 假设 ,确定 检验 水 准 。 

Ho: ga 二 0， 有 :ma 如 ，a 一 0.05 
(2) 计算 统计 量 1 值 























pa es Ld. 
Sz Sz 
先 计算 差 值 d 及 d?( 如 表 1-5 所 示 ) ,得 >)d = 0.58. >)d? = 2. 1182. 
d=1 d=1 
2/4 0.58 
Jil VM = 
d= = io = 0.058 
2 
2.1182 — (2.58) 
S, = Pci 0. 4813 
_ _ Sa _ 0.4813 _ 
Si = E F162 0.1522 
d _ 0,058 _ 
bre p.523. Va 


(3) 确定 P 值 ,做 出 推论 。 
一 ?一 1 一 10 一 1 一 9, 查 上 界 值 表 , 得 双 侧 to.05/2,9 =2. 262, 本 例 t— to oss. «P770. 05. dX 
a=0. 05 水 准 ,不 拒绝 矿 , ,不 能 认为 两 法 测定 尿 铅 结果 有 差别 。 
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1.6.5 卡 方 检验 


卡 方 检验 主要 应 用 于 计数 数据 的 分 析 , 对 于 总 体 的 分 布 不 做 任何 假设 ,因此 它 属于 非 参 
数 检验 法 中 的 一 种 。 它 由 统计 学 家 皮尔 进 推导 。 理 论证 明 , 实 际 观察 次 数 (J,) 与 理论 次 数 
(f。, 又 称 期 望 次 数 ) 之 差 的 平方 再 除 以 理论 次 数 所 得 的 统计 量 , 近 似 服从 卡 方 分 布 ,可 表示 
如 下 。 
x = > Sef) 一 x Go) 
fai 


e 


这 是 卡 方 检验 的 原始 公式 ,其 中 当 SRK AMARRE. RB f. 相差 越 大 , 卡 
方 值 就 越 大 ; 万 5 f. 相差 越 小 , 卡 方 值 就 越 小 ; 因此 它 能 够 用 来 表示 fo 与 f。 相差 的 程度 。 
根据 这 个 公式 ,可 认为 卡 方 检验 的 一 般 问题 是 要 检验 名 义 型 变量 的 实际 观测 次 数 和 理论 次 
数 分 布 之 间 是 否 存在 显著 差异 。 

一 般 用 卡 方 检验 方法 进行 统计 检验 时 ,要 求 样本 容量 不 宜 太 小 ,理论 次 数 三 5 ,否则 需要 
进行 校正 。 如 果 个 别 单元 格 的 理论 次 数 小 于 5, 处 理 方法 有 以 下 4 种 。 

COD 单元 格 合并 法 。 

(2) 增加 样本 数 。 

(3) 去 除 样本 法 。 

(4) 使 用 校正 公式 。 

当 某 一 期 望 次 数 小 于 5 时 ,应 该 利用 校正 公式 计算 卡 方 值 。 公 式 如 下 。 

x 5 Ol f= | sp 
gt 


e 























卡 方 检验 的 应 用 包括 如 下 两 种 情况 。 

l. 独立 性 检验 

独立 性 检验 主要 用 于 两 个 或 两 个 以 上 因素 多 项 分 类 的 计数 资料 分 析 , 也 就 是 研究 两 类 
变量 之 间 的 关联 性 和 依存 性 问题 。 如 果 两 变量 无 关联 即 相互 独立 ,说 明 对 于 其 中 一 个 变量 
而 言 , 另 一 变量 多 项 分 类 次 数 上 的 变化 是 在 无 差 范围 之 内 ; 如 果 两 变量 有 关联 即 不 独立 ,说 
明 二 者 之 间 有 交互 作用 存在 。 独 立 性 检验 一 般 采 用 列 联 表 的 形式 记录 观察 数据 , 列 联 表 是 
由 两 个 以 上 的 变量 进行 交叉 分 类 的 频数 分 布 表 ,是 用 于 提供 基本 调查 结果 的 最 常用 形式 ,可 
以 清楚 地 表示 定 类 变量 之 间 是 否 相互 关联 。 又 可 具体 分 为 如 下 两 种 检验 。 

1) 四 格 表 的 独立 性 检验 
四 格 表 的 独立 性 检验 又 称 为 2X2 列 联 表 的 卡 方 检验 。 四 格 表 资料 的 独立 性 检验 用 于 
进行 两 个 率 或 两 个 构成 比 的 比较 ,是 列 联 表 的 一 种 最 简单 的 形式 ,如 表 1-6 所 示 。 


























表 1-6 列 联 表 
组 别 1 2 总 m 
1 a b a+b 
c d c+d 
总 计 acc b+d N=atbt+ct+d 











CD 专用 公式 。 若 四 格 表 资料 4 个 格子 的 频数 分 别 为 a.b6、c 和 4d, 则 四 格 表 资料 卡 方 检 

验 的 卡 方 值 为 : 
(ad — bc)? _ 
N* GE BG dX oir HRY =1. 


(2) 适应 条 件 。 要 求 样本 含量 应 大 于 40 且 每 个 格子 中 的 理论 频数 不 应 小 于 5。 当 样本 售 
a = — 2 
量 大 于 40 但 理论 频数 有 小 于 5 COLE. EO REE. LAS v= 》 (一 大 | 一 0. 5)- i Bw» 
fa e 
当 样本 含量 小 于 40 时 只 能 用 确切 概率 法 计算 概率 。 
D 行 X 列表 资料 的 独立 性 检验 
行 义 列表 资料 的 独立 性 检验 又 称 为 RXC 列 联 表 的 卡 方 检验 。 行 XX 列 表 资料 的 独立 性 
检验 用 于 多 个 率 或 多 个 构成 比 的 比较 ,如 表 1-7 所 示 。 
表 1-7 RXC 列 联 表 




















组 别 1 2 c 总 计 
1 An An Ay my 
2 An An Ax mz 
R Ar Arz Arc mpg 
总 计 m nz L2 nc N 

















COD 专用 公式 。R 行 .C 列表 资料 卡 方 检验 的 卡 方 值 如 下 。 
R C 2 
| 21) 
(2) 应 用 条 件 。 要 求 每 个 格子 中 的 理论 频数 工 均 大 于 5 RIST 的 格子 数 不 超过 
总 格子 数 的 1/5。 当 有 T<1 RIT <5 的 格子 较 多 时 ,可 采用 并 行 并 列 、 删 行 删 列 \ 增 大 
样本 含量 的 办 法 使 其 符合 行 X 列表 资料 卡 方 检验 的 应 用 条 件 。 多 个 率 的 两 两 比较 可 采用 
行 X 列表 分 割 的 办 法 。 独 立 性 检验 的 理论 频数 的 计算 公式 如 下 。 


f= = 


式 中 ,fs 表示 横行 各 组 实际 频数 的 总 和 ; /表示 纵 列 各 组 实际 频数 的 总 和 ; N 表示 样本 容 
量 的 总 和 。 

【 例 1.7]. 为 了 解 男女 在 公共 场所 禁烟 上 的 态度 ,随机 调查 100 名 男性 和 80 名 女性 。 
男性 中 有 58 ARREA. 人 不 赞成 ; 而 女性 中 则 有 61 人 赞成 ,19 人 不 赞成 ,如 表 1-8 所 
示 。 那 么 ,是 否 可 认为 男女 在 公共 场所 禁烟 的 问题 所 持 态度 不 同 ? 


R18 男女 禁烟 态度 表 




















Rom 不 RR 行 总 和 
男性 fon 一 58 for, 一 42 R; —100 
女性 fon 一 62 foz 一 18 R,—80 
列 总 和 Ci 一 120 C:=60 T=180 


tt — 8 
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fi. 

CD 提出 零 假设 H: 男女 对 公共 场所 禁烟 的 态度 没有 差异 。 

(2) 确定 自由 度 为 (2 一 1) X (2 一 1) =1, 选 择 显著 水 平 "一 0. 05. 

(3) 求解 男女 对 在 公共 场合 抽烟 的 态度 的 期 望 值 , 这 里 采用 所 在 行列 的 合计 值 的 乘积 
除 以 总 计 值 来 计算 每 一 个 期 望 值 (如 表 1-9 中 : 66.7 王 120X100/180) 。 


R19 男女 禁烟 结果 表 


























"u 成 不 "H 成 行 总 和 
fon =58 for, —42 
R, =100 
Be Fen —66. 7 Fei; =33. 3 i 
fon =62 foz =18 
R:=80 
女性 Fen —53.3 Fez —26.7 t 
列 总 和 C, —120 C: 一 60 T=180 


好 一 2m (fou — Fa" 
= 2 nE 2 
DET aaa Ero +53. 
=7.61 
df = ( 行 数 一 1)( 列 数 一 1) = 1 
Xo.05(1) = 3. 84 
X XO) 
因此 拒绝 零 假 设 , 即 男女 对 公共 场所 禁烟 的 态度 有 显著 差异 。 
[51.8] 某 机 构 欲 了 解 现在 性 别 与 收入 是 否 有 关 , 他 们 随机 抽样 500 人 ,询问 对 此 的 
看 法 ,结果 分 为 “有 关 无关、 不 好 说 ”3 种 答案 ,调查 结果 如 表 1-10 所 示 。 


表 1-10 性 别 与 收入 关系 调查 结果 表 


3 


(62— 53.3)? , (18— 26. 7)? 
26.7 



































性 ith 有 关 无 关 不 知 道 合 计 
男 120 60 50 260 
女 100 110 60 240 
合计 220 170 110 500 
MR 


CD 零 假设 H.: 性 别 与 收入 无 关 。 
(2) 确定 自由 度 为 (3 一 1) X(2 一 1) 一 2. 选择 显著 水 平 a =0. 05. 
(3) 利用 卡 方 统计 量 计算 公式 计算 统计 量 。 


v= ye ue = 21.467 之 X (2) = 5.991 


故 拒绝 零 假 设 , 即 认为 性 别 与 收入 有 关 。 
2. 拟 合 性 检验 
卡 方 检验 能 检验 单个 多 项 分 类 名 义 型 变量 各 分 类 间 的 实际 观测 次 数 与 理论 次 数 之 间 是 


否 一 致 的 问题 ,这 里 的 观测 次 数 是 根据 样本 数据 得 到 的 实 计 数 ,理论 次 数 则 是 根据 理论 或 经 
验 得 到 的 期 望 次 数 。 这 一 类 检验 称 为 拟 合 性 检验 。 其 自由 度 通常 为 分 类 数 减 去 1, 理 论 次 
数 通 常 根据 某 种 经 验 或 理论 。 

【 例 1.9】 随机 抽取 60 名 高 一 学 生 , 问 他 们 文理 要 不 要 分 科 , 回 答 赞成 的 39 人 ,反对 
的 21 人 , 问 对 分 科 的 意见 是 否 有 显著 的 差异 ? 

LUE 

COD 提出 零 假 设 H: 学 生 们 对 文理 分 科 的 意见 没有 差异 。 

(2) 分 析 : 如 果 没 有 显著 的 差异 , 则 赞成 与 反对 的 各 占 一 半 , 因 此 是 一 个 无 差 假 设 的 检 
验 , 于 是 理论 次 数 为 60/2 王 30, 代 入 公式 : 

2 (fo — fe)” 9— 30)? , (21— 30? 
ToS Í ít (3 zm Lf -— 

所 以 拒绝 原 假设 ,认为 对 于 文理 分 科 , 学 生 们 的 态度 是 有 显著 差异 的 。 

【 例 1.10]. 某 大 学 二 年 级 的 公共 体育 课 是 球 类 课 , 根 据 自己 的 爱好 ,学 生 只 需要 在 篮 
ER .足球 和 排球 3 种 课程 中 选择 一 种 。 据 以 往 的 统计 ,选择 这 3 种 课程 的 学 生 人 数 是 相等 
的 。 今 年 开课 前 对 90 名 学 生 进行 抽样 调查 ,选择 篮球 的 有 39 人 ,选择 足球 的 28 人 ,选择 
排球 的 23 人 ,如 表 1-11 所 示 。 那 么 ,今年 学 生 对 3 种 课程 选择 的 人 数 比例 与 以 往 是 否 
不 同 ? 











54 > Xô- (1) = 3. 84 


表 1-11 篮球 足球 排球 选择 情况 表 

















E R E R He m 
观察 次 数 (fo) 39 28 23 
期 望 次 数 (fe) 30 30 30 
解 : 
提出 零 假设 Hy: 选择 3 种 课程 的 学 生 比 例 与 以 往 没 有 差异 。 


df=2 
X&o(2) = 5.99 
X < Xs (2) 


— 2 -- 2 - 2 2 
x 3s fe) (39 — 30) 4 G8 30) (23 — 30) 











f. 30 30 T 30 


BIX 4. 46—5. 99 ,所 以 接受 原 假设 , 即 选择 3 种 课程 的 学 生 比 例 与 以 往 相同 。 

分 析 独 立 性 检验 与 拟 合 性 检验 的 异同 : 从 表面 上 看 , 拟 合 性 检验 和 独立 性 检验 不 论 在 
列 联 表 的 形式 上 还 是 在 计算 卡 方 的 公式 上 都 是 相同 的 ,所 以 经 常 被 笼统 地 称 为 卡 方 检验 。 
但 是 两 者 还 是 存在 差异 的 。 首 先 ,两 种 检验 抽取 样本 的 方法 不 同 。 如 果 抽 样 是 在 各 类 别 中 
分 别 进行 ,依照 各 类 别 分 别 计算 其 比例 ,属于 拟 合 优 度 检验 。 如 果 抽样 时 并 未 事先 分 类 , 抽 
样 后 根据 研究 内 容 ,把 入 选单 位 按 两 类 变量 进行 分 类 ,形成 列 联 表 , 则 是 独立 性 检验 。 其 次 ， 
两 种 检验 假设 的 内 容 有 所 差异 。 拟 合 优 度 检验 的 原 假设 通常 是 假设 各 类 别 总 体 比 例 等 于 某 
个 期 望 概率 ,而 独立 性 检验 中 原 假设 则 假设 两 个 变量 之 间 独 立 。 最 后 ,期 望 频数 的 计算 不 
同 。 拟 合 优 度 检验 是 利用 原 假设 中 的 期 望 概率 ,用 观察 频数 乘 以 期 望 概率 ,直接 得 到 期 望 频 
数 ; 独立 性 检验 中 两 个 水 平 的 联合 概率 是 两 个 单独 概率 的 乘积 。 
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1.7. 常用 的 大 数据 挖掘 评估 方法 


混淆 矩阵 是 用 来 反映 某 一 个 分 类 模型 的 分 类 结果 的 ,其 中 行 代表 的 是 真实 的 类 , 列 代表 
的 是 模型 预测 的 分 类 。 具 体 模型 如 表 1-12 所 示 。 


x 1-12 混淆 和 矩阵 模型 表 














预测 类 1 预测 类 2 预测 类 n 
真实 类 1 an ay Me an 
真实 类 2 an ar sas am 
KX n an anz asa Gan 














其 中 ,ai 表 示 真 实 类 为 类 i 被 预测 为 类 j 的 数目 。 对 于 二 分 类 问题 ,其 混淆 矩阵 可 以 表 
示 如 表 1-13 所 示 。 











表 1-13 二 分 类 混淆 模型 表 
Predicted 
Confusion Matrix 
Negative Positive 
Negative TN TP 
Actual 
Positive FN TE 











其 中 ,TP(true positive) 表示 样本 的 真实 类 别 为 正 , 最 后 的 预测 类 别 为 正 ， FP (false 
positive) 表 示 样 本 的 真实 类 别 为 负 , 最 后 的 预测 类 别 为 正 ， FN (false negative) 表 示 样 本 的 
真实 类 别 为 正 ,最 后 的 预测 类 别 为 负 : TN(true negative) 表 示 样 本 的 真实 类 别 为 负 , 最 后 的 
预测 类 别 为 负 。 即 : 

真正 率 (True Positive Rate. TPR) t £j JJ X fft E (sensitivity ): TPR= s EN 
假 负 率 (False Negative Rate. FNR) ; FNR- E 
假 正 率 (False Positive Rate. FPR) ; FPR= ss TN 
TN 


真 负 率 (True Negative Rate, TNR) th fj Jy f$ 5 JE (specificity) ; TNR= FPFTN 


分 类 方法 的 评估 指标 有 : 


精确 度 (Precision) : P TE 


~ TP-+FP 


. inc. TP 
召回 率 (Recall) : R=TPR=7PFFN 
2XPXR 
PFR 





F-score; F= 


TP--TN 


准确 率 (Accuracy): A— rS TN-EFP-EFN 


ROC (Receiver Operating Characteristic, 受 试 者 工作 特征 曲线 ,又 称 感受 性 曲线 ) 曲线 : 
以 FPR 为 横 坐 标 , TPR 为 纵 坐 标的 曲线 。 在 二 分 类 问题 中 ,实例 的 值 往往 是 连续 值 ,通过 
设 定 一 个 阀 值 将 实例 分 为 正 类 或 负 类 。 不 同 的 阔 值 对 应 不 同 的 分 类 ,同时 一 个 阔 值 对 应 于 
一 个 FPR 及 TPR ,并 对 应 于 ROC 空间 中 的 一 个 点 卫 , 当 阔 值 连续 变化 时 ,已 点 也 随即 移 
动 , 最 终 绘 成 ROC 曲线 。 

ROC 良好 地 刻画 了 不 同 闪 值 对 样本 的 分 辨 能力 ,也 同时 反映 出 对 正 例 和 对 反例 的 分 辩 
能 力 , 方 便 使 用 者 根据 实际 需求 选用 合适 的 阐 值 。 一 个 好 的 分 类 模型 要 求 ROC 曲线 尽 可 
能 靠近 图 形 的 左上 角 。 

AUC(Area Under ROC Curve. ROC 曲线 下 的 面积 ): ROC 曲线 与 横 坐 标 轴 所 围 区 域 
的 面积 。 通 常 取 0.5 到 1.0 之 间 的 值 ,其 值 越 大 代表 分 类 模型 的 性 能 越 好 。 

【 例 1.11】 假设 我 们 有 一 个 由 100 名 体操 运动 员 、100 名 NBA 篮球 运动 员 及 100 名 马 拉 
松 运动 员 的 属性 构成 的 数据 集 。 利 用 某 种 分 类 方法 进行 评估 ,其 混淆 矩阵 如 表 1-14 所 示 。 

表 1-14 运动 员 混 消 矩阵 表 








体操 运动 员 


篮球 运动 员 


马拉松 运动 员 





体操 运动 员 


83 


0 


17 





篮球 运动 员 


0 


92 


8 





马拉松 运动 员 








16 





85 


由 混淆 矩阵 可 知 : 有 83 个 体操 运动 员 被 正确 分 类 ,但 是 却 有 17 个 被 错 分 为 马拉松 运 
动员 ; 92 个 篮球 运动 员 被 正确 分 类 ,但 是 却 有 8 个 被 错 分 为 马拉松 运动 员 ; 85 名 马拉松 运 
动员 被 正确 分 类 ,但 是 却 有 9 个 人 被 错 分 为 体操 运动 员 ,还 有 16 个 人 被 错 分 为 篮球 运动 员 。 

【 例 1. 12〗 如 有 150 个 样本 数据 ,这 些 数 据 分 3 类 ,每 类 50 个 。 利 用 某 种 分 类 方法 进 
行 评 估 其 混淆 矩阵 如 表 1-15 所 示 。 
表 1-15 ”样本 数据 混淆 矩阵 表 


预测 类 1 


预测 类 2 





真实 类 1 


43 


5 





真实 类 2 


45 





真实 类 3 


0 


1 











由 混淆 矩阵 可 知 : 有 43 个 类 1 中 的 数据 被 正确 分 类 ,但 是 却 有 5 个 被 错 分 为 类 2; 2 个 
被 错 分 为 类 3; 45 个 类 2 中 的 数据 被 正确 分 类 ,但 是 却 有 2 个 被 错 分 为 类 1,3 个 被 错 分 为 
类 3; 49 个 类 3 中 的 数据 被 正确 分 类 ,但 是 却 有 1 个 人 被 错 分 为 类 2. 


1.8 大 数据 平台 相关 技术 


1.8.1 分 布 式 存储 技术 


与 集中 式 存储 技术 不 同 ,分 布 式 存储 技术 并 不 是 将 数据 存储 在 某 个 或 多 个 特定 的 结 点 
上 ,而 是 通过 网 络 使 用 企业 中 的 每 台 机 器 上 的 磁盘 空间 ,并 将 这 些 分 散 的 存储 资源 构成 一 个 
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大 数据 控 握 与 应 用 





虚拟 的 存储 设备 ,数据 分 散 的 存储 在 企业 的 各 个 角落 。 分 布 式 存 储 系统 具有 如 下 几 个 特性 。 

(1) 可 扩展 。 分 布 式 存储 系统 可 以 扩展 到 几 百 台 甚 至 几 千 台 的 集群 规模 ,而 且 随 着 集 
群 规模 的 增长 ,系统 整体 性 能 表现 为 线性 增长 。 

(2) 低 成 本 。 分 布 式 存储 系统 的 自动 容错 .自动 负载 均衡 机 制 使 其 可 以 构建 在 普通 PC 
机 之 上 。 另 外 ,线性 扩展 能 力也 使 得 增加 、 减 少 机 器 非常 方便 ,可 以 实现 自动 运 维 。 

(3) 高 性 能 。 无 论 是 针对 整个 集群 还 是 单 台 服务 器 ,都 要 求 分 布 式 存 储 系 统 具备 高 
性 能 。 

(4) 易 用 性 。 分 布 式 存储 系统 需要 能 够 提供 易 用 的 对 外 接口 ,另外 ,也 要 求 具 备 完 善 的 
监控 、 运 维 工具 ,并 能 够 方便 地 与 其 他 系统 集成 ,例如 ,从 Hadoop 云 计 算 系 统 导 入 数据 。 

分 布 式 存储 系统 的 挑战 主要 在 于 数据 ,状态 信息 的 持久 化 ,要 求 在 自动 迁移 .自动 容错 、 
并 发 读 写 的 过 程 中 保证 数据 的 一 致 性 。 分 布 式 存储 系统 的 关键 问题 如 下 。 

COD 数据 分 布 。 如 何 将 数据 分 布 到 多 台 服 务 器 才能 够 保证 数据 分 布 均匀 ? 数据 分 布 到 
多 台 服 务 器 后 如 何 实现 跨 服务 器 读 写 操作 ? 

(2) 一 致 性 。 如 何 将 数据 的 多 个 副本 复制 到 多 台 服 务 器 ,即使 在 异常 情况 下 ,也 能 够 保 
证 不 同 副本 之 间 的 数据 一 致 性 ? 

(3) 容错 。 如 何 检测 到 服务 器 故障 ?如 何 自动 地 将 出 现 故 障 的 服务 器 上 的 数据 和 服务 
迁移 到 集群 中 其 他 服务 器 ? 

(4) 负载 均衡 。 新 增 服务 器 和 集群 正常 运行 过 程 中 如 何 实现 自动 负载 均衡 ? 数据 迁移 
的 过 程 中 如 何 保证 不 影响 已 有 服务 ? 

(5) 事务 与 并 发 控制 。 如 何 实现 分 布 式 事务 ? 如 何 实现 多 版 本 并 发 控制 ? 

(6) 易 用 性 。 如 何 设计 对 外 接口 使 得 系统 容易 使 用 ? 如 何 设计 监控 系统 并 将 系统 的 内 
部 状态 以 方便 的 形式 暴露 给 运 维和 人 员 ? 

(7) 压缩 /解压 缩 。 如 何 根据 数据 的 特点 设计 合理 的 压缩 /解压 缩 算法 ? 如何 平衡 压缩 
算法 节省 的 存储 空间 和 消耗 的 CPU 计算 资源 ? 

按照 结构 化 程度 来 划分 ,数据 大 致 分 为 结构 化 数据 、 非 结构 化 数据 和 半 结 构 化 数据 。 下 
面 分 别 介绍 这 3 种 数据 如 何 分 布 式 存储 。 

1. 结构 化 数据 

所 谓 结构 化 数据 是 一 种 用 户 定义 的 数据 类 型 , 它 包含 了 一 系列 的 属性 ,每 一 个 属性 都 有 
一 个 数据 类 型 ,存储 在 关系 数据 库 里 ,可 以 用 二 维 表 结 构 来 表达 实现 的 数据 。 大 多 数 系统 都 
有 大 量 的 结构 化 数据 ,一般 存 储 在 Oracle 或 SQL Server 等 关系 型 数据 库 中 , 当 系 统 规模 大 
到 单一 结 点 的 数据 库 无 法 支撑 时 ,一般 有 两 种 方法 : 垂直 扩展 与 水 平 扩展 。 

(OD 垂直 扩展 。 

垂直 扩展 比较 好 理解 ,简单 地 来 说 ,就 是 按照 功能 切 分 数据 库 , 将 不 同 功能 的 数据 存储 
在 不 同 的 数据 库 中 ,这 样 一 个 大 数据 库 就 被 切 分 成 多 个 小 数据 库 , 从 而 达到 了 数据 库 的 扩 
展 。 一 个 架构 设计 良好 的 应 用 系统 ,其 总 体 功 能 一 般 是 由 很 多 个 松 耦 合 的 功能 模块 所 组 成 
的 ,而 每 一 个 功能 模块 所 需要 的 数据 对 应 到 数据 库 中 就 是 一 张 或 多 张 表 。 各 个 功能 模块 之 
间 交 互 越 少 . 越 统一 ,系统 的 耦合 度 越 低 ,这 样 的 系统 就 越 容易 实现 垂直 切 分 。 

(2) 水 平 扩 展 。 

简单 地 来 说 ,可 以 将 数据 的 水 平 切 分 理解 为 按照 数据 行 来 切 分 ,就 是 将 表 中 的 某 些 行 切 





分 到 一 个 数据 库 中 ,而 另外 的 某 些 行 又 切 分 到 其 他 的 数据 库 中 。 为 了 能 够 比较 容易 地 判断 
各 行 数 据 切 分 到 了 哪个 数据 库 中 , 切 分 总 是 需要 按照 某 种 特定 的 规则 来 进行 的 ,如 按照 某 个 
数字 字段 的 范围 , 某 个 时 间 类 型 字段 的 范围 ,或 者 某 个 字段 的 hash 值 。 

垂直 扩展 与 水 平 扩展 各 有 优 缺 点 ,一 般 一 个 大 型 系统 会 将 水 平 与 垂直 扩展 结合 使 用 。 

2. 非 结 构 化 数据 

相对 于 结构 化 数据 而 言 ,不 方便 用 数据 库 二 维 逻 辑 表 来 表现 的 数据 即 称 为 非 结构 化 数 
据 ,包括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 XML、HTML、 各 类 报表 、 图 像 和 音频 /视频 信息 
等 。 分 布 式 文件 系统 是 实现 非 结 构 化 数据 存储 的 主要 技术 ,谷歌 文件 系统 (Google File 
System,GFS) 是 最 常见 的 分 布 式 文件 系统 之 一 。GFS 将 整个 系统 分 为 三 类 角色 : Client% 
户 端 )\ Master( 主 服务 器 ) 和 Chunk Server( 数 据 块 服务 器 ) 。 

(1) Client( 客 户 端 ) 。 

Client 是 GFS 提供 给 应 用 程序 的 访问 接口 , 它 是 一 组 专用 接口 ,以 库 文 件 的 形式 提供 ， 
应 用 程序 可 直接 调用 这 些 库 函 数 ,并 与 该 库 链接 在 一 起 。 

(2) Master( 主 服务 器 ) 。 

Master 是 GFS 的 管理 结 点 ,主要 存储 与 数据 文件 相关 的 元 数据 ,而 不 是 Chunk( 数 据 
块 )。 元 数据 包括 命名 空间 (Name Space) ,也 就 是 整个 文件 系统 的 目录 结构 ,一 个 能 将 64 
位 标签 映射 到 数据 块 的 位 置 及 其 组 成 文件 的 表格 .Chunk 副本 位 置信 息 和 哪个 进程 正在 读 
写 特 定 的 数据 块 等 。 另 外 ,Master 结 点 会 周期 性 地 接收 从 每 个 Chunk 结 点 来 的 更 新 
(Heart-beat) ,以 使 元 数据 保持 最 新 状态 。 

(3) Chunk Server( 数 据 块 服务 器 ) 。 

负责 具体 的 存储 工作 ,用 来 存储 Chunk, GFS 将 文件 按照 固定 大 小 进行 分 块 ,默认 是 
64MB, 每 一 块 称 为 一 个 Chunk( 数 据 块 ) ,每 一 个 Chunk 以 Block 为 单位 进行 划分 ,大 小 为 
64KB, 每 个 Chunk 有 一 个 唯一 的 64 位 标签 。GFS 采用 副本 的 方式 实现 容错 ,每 一 个 
Chunk 有 多 个 存储 副本 (默认 为 3 A). Chunk Server 的 个 数 可 有 多 个 , 它 的 数目 直接 决定 
了 GFS 的 规模 。 

3. 半 结 构 化 数据 

半 结 构 化 数据 是 介 于 完全 结构 化 数据 (如 关系 型 数据 库 、 面 向 对 象 数 据 库 中 的 数据 ) 和 
完全 无 结构 的 数据 (如 声音 、 图 像 文件 等 ) 之 间 的 数据 , 半 结 构 化 数据 模型 具有 一 定 的 结构 
性 ,但 较 之 传统 的 关系 和 面向 对 象 的 模型 更 为 灵活 。 半 结构 数据 模型 完全 不 基于 传统 数据 
库 模 式 的 严格 概念 ,这 些 模型 中 的 数据 都 是 自 描述 的 。 由 于 半 结 构 化 数据 没有 严格 的 
schema 定义 ,所 以 不 适合 用 传统 的 关系 型 数据 库 进 行 存 储 , 适 合 存储 这 类 数据 的 数据 库 被 
称 作 NoSQL 数据 库 。 

NoSQL 数据 库 被 称 作 下 一 代 的 数据 库 , 具 有 非 关 系 型 、 分 布 式 、 轻 量 级 、 支 持 水 平 扩展 
且 一 般 不 保证 遵循 ACIDO 原则 的 数据 储存 系统 。NoSQL 其 实 是 具有 误导 性 的 别名 , 称 作 
Non-Relational Database( 非 关 系 型 数据 库 ) 更 为 恰当 。 所 谓 “ 非 关系 型 数据 库 ” 指 的 是 以 下 
几 点 。 

(1) 使 用 松 耦 合 类 型 .可 扩展 的 数据 模式 来 对 数据 进行 逻辑 建 模 (Map, 列 ,文档 ,图 表 
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等 ) ,而 不 是 使 用 固定 的 关系 模式 元 组 来 构建 数据 模型 。 

(2) 以 遵循 于 CAP 定理 (能 保证 在 一 致 性 .可 用 性 和 分 区 容忍 性 三 者 中 达到 任意 两 个 ) 
的 跨 多 结 点 数据 分 布 模型 而 设计 ,支持 水 平 伸缩 。 这 意味 着 对 于 多 数据 中 心 和 动态 供应 (在 
生产 集群 中 透明 地 加 入 /删除 结 点 ) 的 必要 支持 ,也 即 弹性 (Elasticity) 。 

(3) 拥有 在 磁盘 或 内 存 中 ,或 者 在 这 两 者 中 都 有 的 ,对 数据 持久 化 的 能 力 , 有 时 候 还 可 
以 使 用 可 热 插 拔 的 定制 存储 。 

(4) 支持 多 种 的 Non-SQL 接口 (通常 多 于 一 种 ) ,以 便 进行 数据 访问 。 


1.8.2 分 布 式 任务 调度 技术 


分 布 式 调度 的 基本 目标 是 尽快 地 得 到 计算 结果 和 有 效 地 利用 资源 。 具 体 地 来 说 ,调度 
算法 的 目标 有 以 下 两 个 。 

(1) 负载 平衡 (load balancing) 。 它 的 努力 目标 是 维持 整个 分 布 式 系统 中 各 个 资源 上 的 
负载 大 致 相同 。 

(2) 负载 共享 (load sharing)。 它 的 目标 仅仅 是 防止 某 个 处 理 机 上 的 负载 过 重 。 相 对 来 
说 ,负载 共享 的 目标 要 比 负载 平衡 的 目标 容易 达到 。 负 载 平衡 的 主要 目的 是 提高 整个 系统 
的 流量 ,而 负载 共享 的 主要 目标 是 缩短 特定 程序 的 执行 时 间 。 

如 图 1-5 所 示 , 按 照 不 同 的 划分 标准 ,调度 算法 可 以 分 为 以 下 几 种 不 同 的 类 型 。 

(1) 静态 调度 算法 是 调度 之 前 制定 好 的 调度 策略 ,调度 过 程 中 按照 预先 制定 的 策略 进 
行 调度 ,调度 过 程 中 不 考虑 当前 各 服务 器 、 网 关 或 链 路 的 实际 负载 情况 及 可 负载 的 能 力 。 由 
于 调度 不 随 着 当前 的 负载 情况 改变 而 改变 ,因此 称 为 静态 调度 算法 。 算 法 特点 是 实现 简单 、 
调度 快捷 。 动 态 调度 算法 与 之 相反 , 它 是 在 决策 时 刻 根据 逐步 获得 的 信息 不 断 地 更 新 调度 ， 
调度 过 程 要 动态 考虑 机 器 的 负载 均衡 问题 ,与 静态 调度 算法 相 比 ,该 类 算法 比较 复杂 ,但 负 
载 均衡 较 好 。 

(2) 从 调度 算法 的 有 效 性 来 看 ,调度 算法 分 为 最 优 调度 算法 和 次 优 调度 算法 。 为 了 实 
现 最 优 调度 算法 ,调度 者 必须 获得 所 有 进程 的 状态 信息 和 系统 中 所 有 相关 的 可 用 信息 。 最 
优 性 常用 执行 时 间 ,资源 利用 率 、 系 统 流量 以 及 这 些 参数 的 某 种 综合 来 进行 评价 。 一 般 来 
说 ,最 优 调度 是 一 个 NP 完全 性 问题 。 所 以 在 实际 的 系统 中 , 常 采用 次 优 的 调度 算法 。 

次 优 的 调度 算法 分 为 两 类 : 近似 的 次 优 调度 算法 和 启发 式 的 次 优 调度 算法 。 近 似 的 次 
优 调 度 常 和 最 优 调度 使 用 相同 的 算法 ,但 是 近似 的 次 优 调度 不 搜索 这 个 算法 的 所 有 解 空 间 ， 
而 是 在 这 个 算法 的 解 空间 中 的 一 个 子 集中 搜索 ,目的 是 尽快 地 找到 一 个 较 好 的 解 。 而 最 优 
调度 则 是 搜索 这 个 算法 的 整个 解 空间 ,目的 是 获得 最 好 的 解 。 使 用 近似 的 次 优 调度 算法 必 
须 能 够 判定 所 得 到 的 解 是 否 是 可 以 被 接受 的 ,也 就 是 说 ,必须 能 够 确定 最 优 解 和 次 优 解 之 间 
的 近似 程度 。 启 发 式 的 次 优 调度 算法 常 使 用 比较 简明 的 规则 和 一 些 直觉 的 规则 来 进行 调 
度 。 这 些 启 发 式 的 规则 往往 是 不 能 证 明 其 正确 性 ,但 是 在 绝 大 多 数 的 情况 下 是 能 够 被 接 
受 的 。 

(3) 集中 式 调度 是 在 系统 中 有 一 个 中 央 调 度 服务 员 , 负 责 搜集 状态 信息 并 做 出 全 部 调 
度 决 策 。 各 机 器 周期 性 地 向 它 发 送 状 态 更 新 报 文 ,报告 它们 的 负载 信息 ; 顾客 向 它 发 送 远 
程 执行 请 求 。 中 央 调 度 服务 员 根 据 负 载 情 况 ,建立 一 个 主机 候选 者 的 有 序 表 , 依 次 选择 主 
机 ,对 顾客 的 远程 执行 请 求 进行 响应 。 使 用 中 央 调 度 服 务 员 查询 状态 会 减少 报 文 传送 数目 ， 

















但 是 因为 机 器 由 于 本 地 活动 可 以 在 任何 时 间 改 变 其 负载 ,所 以 将 产生 状态 信息 过 时 的 问题 。 
而 在 全 分 散 式 调 度 中 ,每 个 机 器 自己 进行 选择 活动 。 它 必须 不 断 地 记录 整个 系统 状态 或 者 
当 需 要 时 查询 系统 状态 信息 ,在 前 一 种 情况 下 ,每 个 机 器 (即使 是 忙碌 的 机 器 ) 要 定期 地 产生 
更 新 报 文 并 向 其 他 主机 广播 (公布 ) .而 每 个 主机 中 维持 一 个 主机 状态 表 。 在 后 一 种 情况 下 ， 
只 有 对 主机 选择 有 兴趣 的 那些 主机 才 关 心 状态 信息 (查询 )。 采 用 查询 方法 , 即 每 个 需要 获 
得 空闲 主机 的 顾客 机 发 送 查 询 报 文 请 求 得 到 当前 状态 信息 ,请 求 中 包括 所 需 资源 的 说 明 。 
该 顾客 从 所 有 愿意 成 为 候选 主机 的 机 器 那里 得 到 回答 ,并 从 中 选取 一 个 最 合适 的 机 器 。 
1.8.3 并 行 计算 技术 

l. 并 行 计 算 技术 分 类 
并 行 计算 技术 发 展 至 今 ,出 现 了 不 同 的 技术 和 方法 ,同时 也 出 现 了 不 同 的 分 类 方法 , 包 
括 按 指令 和 数据 处 理 方式 的 Flynn 分 类 、 按 存储 访问 结构 的 分 类 、 按 系统 类 型 的 分 类 、 按 应 
用 的 计算 特征 的 分 类 、 按 并 行程 序 设计 方式 的 分 类 。 

1) Flynn 分 类 法 

1966 年 ,斯坦福 大 学 教授 Michael J. Flynn 提出 了 经 典 的 计算 机 结构 分 类 方法 ,从 最 
抽象 的 指令 和 数据 处 理 方式 进行 分 类 ,通常 称 为 Flynn 分 类 。Flynn 分 类 法 是 从 两 种 角度 
进行 分 类 ,一 是 依据 计算 机 在 单个 时 间 点 能 够 处 理 的 指令 流 的 数量 ; 二 是 依据 计算 机 在 单 
个 时 间 点 能 够 处 理 的 数据 流 的 数量 。 任 何 给 定 的 计算 机 系统 均 可 以 依据 处 理 指令 和 数据 的 
方式 进行 分 类 。 图 1-5 所 示 为 Flynn 分 类 下 的 几 种 不 同 的 计算 模式 。 
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图 1-5 Flynn 分 类 下 的 计算 模式 








CD 单 指令 流 单数 据 流 (Single Instruction stream and Single Data stream, SISD), 
SISD 是 传统 串 行 计算 机 的 处 理 方式 ,硬件 不 支持 任何 并 行 方式 .所 有 指令 串 行 执行 。 在 一 
个 时 钟 周期 内 ,处 理 器 只 能 处 理 一 个 数据 流 。 很 多 早期 计算 机 均 采 用 这 种 处 理 方式 ,例如 ， 
最 初 的 IBM PC. 

(2) 单 指令 流 多 数据 流 (Single Instruction stream and Multiple Data stream.SIMD). 
SIMD 采 个 指令 流 同时 处 理 多 个 数据 流 。 最 初 的 阵列 处 理 机 或 者 向 量 处 理 机 都 具备 这 
种 处 理 能 力 。 计 算 机 发 展 至 今 , 几乎 所 有 计算 机 都 以 各 种 指令 集 形式 实现 SIMD。 较 为 常 
用 的 有 ,Intel 处 理 器 中 实现 的 MMXTM,SSE(Streaming SIMD Extensions) , SSE2, SSE3, 
SSE4 及 AVX(Advanced Vector Extensions) 等 向 量 指令 集 。 这 些 指 令 集 都 能 够 在 单个 时 
钟 周期 内 处 理 多 个 存储 在 寄存 器 中 的 数据 单元 。SIMD 在 数字 信号 处 理 、 图 像 处 理 、 多 媒体 
信息 处 理 及 各 种 科学 计算 领域 有 较 多 的 应 用 。 

(3) 多 指令 流 单 数据 流 (Multiple Instruction stream and Single Data stream,MISD) 。 
MISD 采用 多 个 指令 流 处 理 单个 数据 流 。 这 种 方式 实际 很 少 出 现 .一 般 只 作为 一 种 理论 模 
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型 ,并 没有 投入 到 实际 生产 和 应 用 中 。 

(4) 多 指令 流 多 数据 流 (Multiple Instruction Stream and Multiple Data Stream. 
MIMD). MIMD 能 够 同时 执行 多 个 指令 流 , 这 些 指 令 流 分 别 对 不 同 数据 流 进行 处 理 。 这 
是 目前 最 流行 的 并 行 计算 处 理 方式 。 目 前 较 常 用 的 多 核 处 理 器 以 及 Intel 最 新 推出 的 众 核 
处 理 器 都 属于 MIMD 的 并 行 计算 模式 。 

2) 按 存储 访问 结构 分 类 

按 存储 访问 结构 ,可 将 并 行 计算 分 为 以 下 几 类 。 

CD 共享 内 存 访问 结构 (Shared Memory Access)。 即 所 有 处 理 器 通过 总 线 共享 内 存 的 
多 核 处 理 器 ,也 称 为 UMA 结构 (Uniform Memory Access. 一 致 性 内 存 访问 结构 )。SMP 
(Symmetric MultirProcessing, 对 称 多 处 理 器 系统 ) 即 为 典型 的 内 存 共 享 式 的 多 核 处 理 器 构 
架 。 图 1-6 即 为 共享 内 存 访问 结构 示意 图 。 

(2) 分 布 式 内 存 访问 结构 (distributed memory access). "nl 1-7 所 示 为 分 布 式 内 存 访 
问 结构 的 示意 图 ,其 中 各 个 分 布 式 处 理 器 使 用 本 地 独立 的 存储 器 。 
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图 1-6 共享 内 存 访问 结构 图 1-7 分 布 式 内 存 访问 结构 
G) 分 布 共享 式 内 存 访 问 结构 (distributed and shared [内 存 | 内 存 | 内 存 
memory access)。 这 是 一 种 混合 式 的 内 存 访问 结构 。 如 
图 1-8 所 示 , 各 个 处 理 器 分 别 拥有 独立 的 本 地 存储 器 ,同时 | cpu | | cpu | s | CPU 
再 共享 访问 一 个 全 局 的 存储 器 。 | 
分 布 式 内 存 访问 结构 和 分 布 共 享 式 内 存 访问 结构 也 总 g 
称 为 NUMA 结构 (Non-Uniform Memory Access, 非 一 致 
内 存 访问 结构 )。 在 多 核 情 况 下 ,这 种 内 存 访问 架构 可 以 共享 存 全 
充分 扩展 内 存 带 宽 , 减 少 内 存 冲突 开销 ,提高 系统 扩展 性 - 
和 计算 性 能 。 图 1-8 ”分布 共享 式 内 存 访问 结构 


2. 主要 技术 问题 

依赖 于 所 采用 的 并 行 计算 体系 结构 ,不 同类 型 的 并 行 计算 系统 在 硬件 构架 、 软 件 构架 和 
并 行 算法 方面 会 涉及 不 同 的 技术 问题 ,但 概括 起 来 ,主要 包括 以 下 技术 问题 。 

(1) 多 处 理 器 /多 结 点 网 络 互 连 技术 

对 于 大 型 的 并 行 处 理 系统 ,网 络 互 连 技术 对 处 理 器 能 力 影 响 很 大 。 典 型 的 网 络 互 连 结 
构 包 括 共享 总 线 连接 、 交 叉 开 关 和 矩阵 、 环 形 结构 .Mesh 网 络 结构 和 互联 网 络 结构 等 。 

(2) 存储 访问 体系 结构 

存储 访问 体系 结构 主要 研究 不 同 的 存储 结构 以 及 在 不 同 存储 结构 下 的 特定 技术 问题 ， 
包括 共享 数据 访问 与 同步 控制 .数据 通信 控制 和 结 点 计算 同步 控制 .Cache 的 一 致 性 、 数 据 


访问 /通信 的 时 间 延 迟 等 技术 问题 。 

(3) 分 布 式 数据 与 文件 管理 
并 行 计算 的 一 个 重要 问题 是 ,在 大 规模 集群 环境 下 ,如 何 解决 大 规模 数据 的 存储 和 访问 
管理 问题 。 在 大 规模 集群 环境 下 ,解决 大 数据 分 布 存 储 管理 和 访问 问题 非常 关键 ,尤其 是 数 
据 密集 型 并 行 计算 ,数据 的 存储 访问 对 并 行 计算 的 性 能 至 关 重 要 。 目 前 比较 理想 的 解决 方 
法 是 提供 分 布 式 数据 和 文件 管理 系统 ,代表 性 的 系统 有 Google GFS(Google File System) , 
Lustre, HDFS( Hadoop Distributed File System) 等 。 这 些 分 布 式 文件 系统 各 有 特色 ,适用 
于 不 同 领 域 。 

(4) 并 行 计算 的 任务 划分 和 算法 设计 
并 行 计算 的 任务 分 解 和 算法 设计 需要 考虑 的 是 如 何 将 大 的 计算 任务 分 解 成 子 任务 , 继 
而 分 配给 各 结 点 或 处 理 器 并 行 处 理 , 最 终 收 集 局 部 结果 进行 整合 。 一 般 有 算法 分 解 和 数据 
划分 两 种 并 行 计算 形式 ,尤其 是 算法 分 解 ,可 有 多 种 不 同 的 实现 方式 。 

(5) 并 行程 序 设 计 模 型 和 语言 

根据 不 同 的 硬件 构架 ,不 同 的 并 行 计算 系统 可 能 需要 不 同 的 并 行程 序 设 计 模 型 ,方法 和 
语言 。 目 前 主要 的 并 行程 序 设计 语言 和 方法 包括 共享 内 存 式 并 行程 序 设计 、 消 息 传递 式 并 
行程 序 设计 、MapReduce 并 行程 序 设计 以 及 近年 来 出 现 的 满足 不 同 大 数据 处 理 需求 的 其 他 
并 行 计算 和 程序 设计 方法 。 而 并 行程 序 设 计 语 言 通常 可 以 有 不 同 的 实现 方式 ,包括 : 语言 
级 扩充 (即使 用 编译 指令 在 普通 的 程序 设计 语言 中 增加 一 些 并 行 化 编译 指令 ,如 OpenMP 
提供 C.C++、Fortran 语言 扩充 )、 并 行 计算 库 函 数 与 编程 接口 (使 用 函数 库 提供 的 并 行 计算 
编程 接口 .如 MPI(Message Passing Interface. 消息 传递 接口 ) , CUDA (Compute Unified 
Device Architecture, 计 算 的 统一 装置 结构 ) 等 ) 以 及 能 提供 诸多 自动 化 处 理 能 力 的 并 行 计 算 
软件 框架 (如 Hadoop MapReduce 并 行 计 算 框架 等 ) 。 

(6) 并 行 计 算 软 件 框架 设计 和 实现 

现 有 的 OpenMP, MPI,CUDA 等 并 行程 序 设计 方法 需要 程序 员 考 虑 数据 存储 管理 Be 
据 和 任务 划分 、 任 务 的 调度 执行 ,数据 同步 和 通信 、 结 果 收 集 、 出 错 恢复 处 理 等 几乎 所 有 技术 
细节 ,非常 繁琐 。 为 了 进一步 地 提升 并 行 计 算 程 序 的 自动 化 并 行 处 理 能 力 ,编程 时 应 该 尽量 
地 减少 程序 员 对 很 多 系统 底层 技术 细节 的 考虑 ,使 得 编程 人 员 能 从 底层 细节 中 解放 出 来 ,更 
专注 于 应 用 问题 本 身 的 计算 和 算法 实现 。 目 前 已 发 展 出 多 种 具有 自动 化 并 行 处 理 能 力 的 计 
算 软 件 框 架 , 如 Google MapReduce 和 Hadoop MapReduce 并 行 计算 软件 框架 ,以 及 近年 来 
出 现 的 以 内 存 计算 为 基础 .能 提供 多 种 大 数据 计算 模式 的 Spark 系统 等 。 
(7) 数据 访问 和 通信 控制 
并 行 计算 目前 存在 多 种 存储 访问 体系 结构 ,包括 共享 存储 访问 结构 ,分布 式 存 储 访问 结 
构 以 及 分 布 共享 式 存储 访问 结构 。 不 同 存储 访问 结构 下 需要 考虑 不 同 的 数据 访问 、 结 点 通 
信和 以及 同步 控制 等 问题 。 例 如 ,在 共享 存储 访问 结构 系统 中 ,多 个 处 理 器 访问 共享 存储 区 ， 
可 能 导致 数据 访问 的 不 确定 性 .从 而 需要 引入 互 斥 信号 .条 件 变量 等 同步 机 制 ,保证 共享 数 
据 访 问 的 正确 性 ,同时 需 解决 可 能 引起 的 死 锁 问题 。 而 对 于 分 布 式 存储 访问 结构 系统 ,数据 
可 能 需要 通过 主 结 点 传输 到 其 他 计算 结 点 ,由 于 结 点 间 的 计算 速度 不 同 ,为 了 保证 计算 的 同 
步 ,需要 考虑 计算 的 同步 问题 。 
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(8) 可 靠 性 与 容错 性 技术 

对 于 大 型 的 并 行 计算 系统 ,经 常 发 生 结 点 出 错 或 失效 。 因 此 ,需要 考虑 和 预防 由 于 一 个 
结 点 失效 可 能 导致 的 数据 丢失 程序 终止 甚至 系统 崩溃 的 问题 。 这 就 要 求 系统 考虑 良好 的 
可 靠 性 设计 和 失效 检测 恢复 技术 。 通 常 可 从 两 方面 进行 可 靠 性 设计 : 一 是 数据 失效 恢复 ， 
可 使 用 数据 备份 和 恢复 机 制 , 当 某 个 磁盘 出 错 或 数据 损毁 时 ,保证 数据 不 丢失 以 及 数据 的 正 
确 性 ; 二 是 系统 和 任务 失效 恢复 , 当 某 个 结 点 失效 时 ,需要 提供 良好 的 失效 检测 和 隔离 技 
术 , 以 保证 并 行 计算 任务 正常 进行 。 

(9) 并 行 计算 性 能 分 析 与 评估 
并 行 计算 的 性 能 评估 较为 常用 的 方式 是 通过 加 速 比 来 体现 性 能 提升 。 加 速 比 指 的 是 并 
行程 序 的 并 行 执行 速度 相对 于 其 串 行程 序 执行 加 速 了 多 少 倍 。 这 个 指标 贯穿 于 整个 并 行 计 
算 技术 ,是 并 行 计算 技术 的 核心 。 从 应 用 角度 出 发 ,不 论 是 开发 还 是 使 用 ,都 希望 一 个 并 行 
计算 程序 能 达到 理想 的 加 速 比 , 即 随 着 处 理 能 力 的 提升 ,并 行 计算 程序 的 执行 速度 也 需要 有 
相应 的 提升 。 


1.8.4 其 他 技术 


l. 绿色 节能 技术 

现代 巨型 高 速 计算 机 系统 ,包括 云 计 算 平 台 以 及 大 型 企业 的 计算 系统 ,使 用 了 数 以 万 计 
的 计算 结 点 ,这 些 巨型 计算 机 系统 运行 和 冷却 时 需要 消耗 巨大 的 电力 。 为 了 有 效 节能 ,可 以 
使 用 可 管理 电源 的 硬件 来 动态 调整 电量 消耗 ,通过 建立 系统 能 耗 模型 ,实时 调整 和 控制 整个 
系统 的 能 耗 ,并 能 够 在 不 同 负载 情况 执行 任务 时 ,及 时 地 了 解 和 衡量 系统 的 性 能 信息 ,保证 
系统 最 小 的 能 量 消耗 等 。 

2. 安全 性 问题 

欧洲 网 络 与 信息 安全 局 (ENISA) 在 2009 年 发 布 了 《 云 计算 : 好 处 、 风 险 及 信息 安全 建 
JO? ,指出 了 云 计 算 可 能 带 来 的 好 处 ,并 提出 安全 仍 是 云 计 算 应 用 面临 的 首要 问题 。 该 建 
议 认 为 云 计算 面临 下 列 八 大 重要 的 安全 风险 。 

CD 用 户 丧 失 对 部 分 安全 信息 的 管理 .控制 权 。 

(2) 用 户 难以 将 存储 在 云 计算 提供 商 的 数据 进行 迁移 。 

(3) 在 多 租户 共享 云 计算 资源 的 情况 下 ,不 同 租户 间 的 数据 难以 进行 隔离 , 故 容易 混淆 。 

(4) 云 计算 提供 商 若 不 配合 用 户 、 政 府 或 第 三 方 监管 机 构 将 难以 对 提供 商 的 行为 进行 
监管 。 

(5) 用 户 难以 知晓 云 计算 提供 商 如 何 对 数据 进行 处 理 。 

(6) 云 计 算 提 供 商 可 能 不 按 用 户 要 求 对 数据 进行 操作 。 

(7) 来 自 云 服务 提供 商 内 部 的 恶意 行为 可 能 对 用 户 造 成 较 大 损失 。 

(8) 用 户 数据 在 借助 互联 网 进行 传输 时 易 被 窃取 或 修改 。 

基于 SOA 架构 理念 , 云 安全 问题 可 细 分 为 物理 资源 层 安全 、 资 源 抽 象 与 控制 层 安全 、 
资源 架构 层 安全 、 开 发 平台 层 安 全 、 应 用 服务 层 安全 等 5 个 架构 层次 的 安全 问题 ,针对 不 同 
架构 层面 的 安全 应 有 不 同 的 保障 方式 和 技术 [8]。 

3. 虚拟 化 技术 

虚拟 化 技术 就 是 指 把 一 个 物理 单元 虚拟 成 多 个 逻辑 单元 , 供 多 个 应 用 一 起 使 用 。 这 样 























做 的 主要 目的 是 为 了 提高 资源 的 使 用 效率 并 方便 管理 各 种 资源 。 当 前 的 云 计算 模式 (私有 
云 . 公 有 云 或 混合 云 ) 都 需要 资源 的 整合 ,统一 资源 为 客户 提供 服务 ,这 就 要 求 系统 资源 具有 
高 性 能 的 处 理 能 力 。 目 前 单个 昂贵 的 服务 器 的 处 理 能 力 利用 率 较 低 ,造成 了 资源 的 浪费 , 虚 
拟 化 技术 解决 了 上 述 问题 ,使 服务 器 处 理 能 力 得 到 了 充分 的 利用 。 虚 拟 化 技术 包括 内 存 虚 
拟 化 、 存 储 虚 拟 化 .硬件 虚拟 化 、 软 件 虚拟 化 等 各 项 技术 。 


1.9 大 数据 平台 实例 一 一 阿里 云 数 加 平台 


1.9.1. 数 加 平台 简介 


阿里 云 大 数据 平台 简称 数 加 ,创立 于 2009 年 ,是 中 国 的 云 计算 平台 ,服务 范围 覆盖 全 球 
200 多 个 国家 和 地 区 。 阿 里 云 致力 于 为 企业 、 政 府 等 组 织 机 构 提 供 最 安全 ,可靠 的 计算 和 数 
据 处 理 能 力 , 让 计算 成 为 普 惠 科技 和 公共 服务 ,为 万 物 互联 的 DT(Data Technology, 数 据 技 
术 ) 世 界 提供 源源 不 断 的 新 能 源 。 

数 加 平台 由 以 下 三 大 部 分 组 成 。 

1. 开发 套件 

1) 数据 开发 套件 

CD 大 数据 开发 。 集 成 可 视 化 开发 环境 ,可 实现 数据 开发 .调度 .部 署 . 运 维 、 数 仓 设计 
和 数据 质量 管理 等 功能 。 

(2) Bl(Bussiness Intelligence. 商务 智能 ) 报 表 工 具 。 包 括 海量 数据 的 实时 在 线 分 析 及 
丰富 的 可 视 化 效果 ,帮助 人 们 轻松 地 完成 数据 分 析 、 业 务 探查 等 ,所 见 即 所 得 。 

(3) 机 器 学 习 工 具 。 集 数据 处 理 , 特 征 工程 、 建 模 、 离 线 预测 为 一 体 的 机 器 学 习 平 台 , 优 
质 算 法 汇集 ,可 视 化 编辑 。 

2) 应 用 开发 套件 

(1) 面向 通用 数据 应 用 场景 。 提 供 数据 应 用 开发 的 基础 级 工具 ,加 速 基 础 数据 服务 开 
发 。 如 个 性 化 推荐 工具 、 数 据 可 视 化 工具 、 快 速 BI 站 点 搭建 工具 、 规 则 引擎 工具 等 。 

(2) 面向 行业 垂直 应 用 场景 。 提 供 行业 相关 性 很 高 .适合 特定 场景 的 数据 工具 ,如 面向 
政府 县 级 区 域 经 济 的 可 视 化 套件 。 

2. 解决 方案 

数 加 平台 针对 不 同 的 业务 场景 ,基于 平台 提供 的 开发 套件 与 行业 服务 商 的 能 力 ,将 多 方 
产品 串联 ,提供 行业 解决 方案 ,如 敏捷 BI 解决 方案 .交通 预测 解决 方案 .智能 问答 机 器 人 等 。 
一 方面 客户 可 以 自行 参考 解决 方案 ,以 自助 的 方式 完成 解决 方案 的 实施 ; 另 一 方面 ,客户 也 
可 以 咨询 行业 服务 商 或 者 阿里 云 大 数据 平台 官方 ,根据 客户 场景 ,提供 定制 化 的 端 到 端的 解 
决 方案 实施 。 

3. 数据 市 场 

访问 网 址 在 https://market. aliyun. com/chn/data. 

除了 阿里 云 大 数据 官方 的 数据 应 用 , 数 加 平台 会 联合 合作 伙伴 、ISV (Independent 
Software Vedor, 独 立 软件 供应 商 ) 等 来 丰富 大 数据 应 用 ,打造 大 数据 生态 ,以 普 惠 大 数据 为 T 
使 命 ,给 用 户 提 供 更 多 更 好 的 数据 应 用 、 数 据 API 
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阿里 云 的 服务 群体 中 ,活跃 着 微 博 、 知 乎 魅族、 锤子 科技 、 小 咖 秀 等 一 大 批 明星 互联 网 
公司 。 在 天 猫 双 11 全 球 狂欢 节 、12306 春运 购 票 等 极 富 挑战 的 应 用 场景 中 ,阿里 云 保持 着 
良好 的 运行 纪录 。 此 外 ,阿里 云 广 泛 在 金融 、 交 通 、 基 因 、 医 疗 、 气 象 等 领域 输出 一 站 式 的 大 
数据 解决 方案 。 

阿里 云 在 全 球 各 地 部 署 高 效 节 能 的 绿色 数据 中 心 ,利用 清洁 计算 支持 不 同 的 互联 网 应 
用 。 目 前 ,阿里 云 在 杭州 ,北京 青岛、 深圳 、 上 海 、 千 岛 湖 、 内 蒙古 .香港 新加坡、 美国 硅谷 、 
俄罗斯 .日 本 等 地 域 设 有 数据 中 心 , 未 来 还 将 在 欧洲 .中 东 等 地 设立 新 的 数据 中 心 。 


1.9.2 数 加 平台 产品 简介 


阿里 云 的 产品 致力 于 提升 运 维 效率 ,降低 IT 成 本 , 令 使 用 者 更 专注 于 核心 业务 发 展 。 
其 主要 产品 如 下 。 

1. 底层 技术 平台 

阿里 云 独 立 研 发 的 飞天 开放 平台 (Apsara) 负责 管理 数据 中 心 Linux 集群 的 物理 资源 ， 
控制 分 布 式 程序 运行 ,隐藏 下 层 故 障 恢复 和 数据 元 余 等 细节 ,从 而 将 数 以 千 计 甚至 万 计 的 服 
务 器 联 成 一 台 “ 超 级 计算 机 ”, 并 且 将 这 台 超 级 计算 机 的 存储 资源 和 计算 资源 ,以 公共 服务 的 
方式 提供 给 互联 网 上 的 用 户 。 

2. 弹性 计算 

(1) 云 服 务 器 ECS(Elastic Compute Service, 云 服务 器 ) 

一 种 简单 高 效 、 处 理 能 力 可 弹性 伸缩 的 计算 服务 。 帮 助人 们 快速 构建 更 稳定 和 安全 的 
应 用 ,提升 运 维 效率 ,降低 IT 成 本 ,使 用 户 更 专注 于 核心 业务 创新 。 

(2) 云 引擎 ACE(Ali Cloud Engine, 云 引擎 ) 

一 种 弹性 、 分 布 式 的 应 用 托管 环境 ,支持 Java, PHP, Python, Node. js 等 多 种 语言 环境 。 
帮助 开发 者 快速 开发 和 部 署 服务 端 应 用 程序 ,并 简化 系统 维护 工作 。 搭 载 了 丰富 的 分 布 式 
扩展 服务 ,为 应 用 程序 提供 强大 的 助力 。 

(3) 弹性 伸缩 

根据 用 户 的 业务 需求 和 策略 ,自动 调整 其 弹性 计算 资源 的 管理 服务 。 其 能 够 在 业务 增 
长 时 自动 增加 ECS 实例 ,并 在 业务 下 降 时 自动 减少 ECS 实例 。 

3. 数据 库 

D 云 数 据 库 RDS(Relational Database Service, 云 数据 库 ) 

一 种 即 开 即 用 、 稳 定 可 靠 、 可 弹性 伸缩 的 在 线 数据 库 服 务 。 基 于 飞天 分 布 式 系统 和 高 性 
能 存储 ,RDS 支持 MySQL、SQL Server、PostgreSQL 和 PPAS( 高 度 兼 容 Oracle) 引擎 ,并 且 
提供 了 容 灾 、 备 份 ,恢复 , 监 控 . 迁 移 等 方面 的 全 套 解决 方案 。 

CD 开放 结构 化 数据 服务 OTSCOpen Cache Service, 开 放 缓存 服务 )。 构 建 在 阿里 云 飞 
天 分 布 式 系统 之 上 的 NoSQL 数据 库 服 务 , 提 供 海量 结构 化 数据 的 存储 和 实时 访问 。OTS 
以 实例 和 表 的 形式 组 织 数 据 , 通 过 数据 分 片 和 负载 均衡 技术 ,实现 规模 上 的 无 颖 扩展。 应 用 
通过 调用 OTS API / SDK 或 者 操作 管理 控制 台 来 使 用 OTS 服务 。 

(2) 开放 缓存 服务 OCS(Object Storage Service. 对 象 存储 )。 在 线 缓存 服务 ,为 热点 数 
据 的 访问 提供 高 速 响应 。 

(3) 键 值 存储 KVStore for Redis。 兼 容 开 源 Redis 协议 的 Key-Value 类 型 在 线 存储 服 

















务 。KVStore 支持 字符 串 、 链 表 、 人 集合. 有 序 集合 . 哈 希 表 等 多 种 数据 类 型 ,以 及 事务 
(Transactions) 消息 订阅 与 发 布 (Pub/Sub) 等 高 级 功能 。 通 过 内 存 十 硬盘 的 存储 方式 ， 
KVStore 在 提供 高 速 数据 读 写 能 力 的 同时 ,满足 数据 持久 化 需求 。 

(4) 数据 传输 。 支 持 以 数据 库 为 核心 的 结构 化 存储 产品 之 间 的 数据 传输 。 它 是 一 种 集 
数据 迁移 、 数 据 订阅 及 数据 实时 同步 于 一 体 的 数据 传输 服务 。 数 据 传输 的 底层 数据 流 基础 
设施 为 阿里 双 11 异地 双 活 基础 架构 ,为 数 千 下 游 应 用 提供 实时 数据 流 , 已 在 线 上 稳定 运行 
3 年 之 久 。 

2) 存储 与 CDN(CContent Delivery Network ,内 容 分 发 网 络 ) 

COD 对 象 存储 OSSCObject Storage Service, 对 象 存储 服务 )。 阿 里 云 对 外 提供 的 海量 、 
安全 和 高 可 靠 的 云 存 储 服务 。RESTFul API 的 平台 无 关 性 ,容量 和 处 理 能 力 的 弹性 扩展 ， 
按 实际 容量 付费 真正 使 用 户 专注 于 核心 业务 。 

(2) 归档 存储 。 作 为 阿里 云 数据 存储 产品 体系 的 重要 组 成 部 分 ,致力 于 提供 低 成 本 、 高 
可 靠 的 数据 归档 服务 ,适合 于 海量 数据 的 长 期 归档 和 备份 。 

CD 消息 服务 。 一 种 高 效 、 可 靠 , 安 全 、 便 捷 、 可 弹性 扩展 的 分 布 式 消息 与 通知 服务 。 消 
息 服 务 能 够 帮助 应 用 开发 者 在 他 们 应 用 的 分 布 式 组 件 上 自由 的 传递 数据 ,构建 松 耦 合 系统 。 

(4) CDN。 内 容 分 发 网 络 将 源 站 内 容 分 发 至 全 国 所 有 的 结 点 ,缩短 用 户 查 看 对 象 的 延 
迟 , 提 高 用 户 访问 网 站 的 响应 速度 与 网 站 的 可 用 性 ,解决 网 络 带宽 小 ,用户 访问 量 大 、 网 点 分 
布 不 均等 问题 。 

3) 网 络 

(1) 负载 均衡 。 对 多 台 云 服务 器 进行 流量 分 发 的 负载 均衡 服务 。 负 载 均衡 可 以 通过 流 
量 分 发 扩展 应 用 系统 对 外 的 服务 能 力 , 通 过 消除 单 点 故障 提升 应 用 系统 的 可 用 性 。 

(2) 专 有 网 络 VPC(Virtual Private Cloud ,虚拟 私有 云 )。 帮 助 基于 阿里 云 构建 出 一 个 
隔离 的 网 络 环境 。 用 户 可 以 完全 掌控 自己 的 虚拟 网 络 , 包 括 选择 自 有 IP 地 址 范围 .划分 网 
段 . 配 置 路 由 表 和 网 关 等 。 也 可 以 通过 专线 /VPN 等 连接 方式 将 VPC 与 传统 数据 中 心 组 成 
一 个 按 需 定制 的 网 络 环境 ,实现 应 用 的 平滑 迁移 上 云 。 

4) 大 规模 计算 

CD 开放 数据 处 理 服务 MaxCompute。 由 阿里 云 自主 研发 ,提供 针对 TB/PB 级 数据 、 
实时 性 要 求 不 高 的 分 布 式 处 理 能 力 ,应 用 于 数据 分 析 、 挖 掘 、 商 业 智 能 等 领域 。 阿 里 巴巴 的 
离线 数据 业务 都 运行 在 ODPS 上 。 

(2) 采 云 间 DPC(Data Process Cente, 采 云 间 )。 是 基于 开放 数据 处 理 服务 (MaxCompute) 
的 DW/BI 的 工具 解决 方案 。 DPC 提供 全 链 路 的 .易于 上 和 手 的 数据 处 理工 具 , 包括 
MaxCompute IDE, ff 45 ji] E .数据 分 析 、 报 表 制 作 和 元 数据 管理 等 ,可 以 大 大 地 降低 用 户 在 
数据 仓库 和 商业 智能 上 的 实施 成 本 ,加 快 实施 进 度 。 天 弘 基金 、 高 德 地 图 的 数据 团队 基于 
DPC 完成 他 们 的 大 数据 处 理 需求 。 

(3) 批量 计算 。 一 种 适用 于 大 规模 并 行 批 处 理 作业 的 分 布 式 云 服务 。 批 量 计算 可 支 
持 海量 作业 并 发 规模 , 系统 自动 地 完成 资源 管理 ,作业 调度 和 数据 加 载 ,并 按 实际 使 用 量 
计 费 。 批 量 计算 广泛 应 用 于 电影 动画 演 染 、 生 物 数据 分 析 、 多 媒体 转 码 和 人 金融 保险 分 析 
等 领域 。 

C4) 数据 集成 。 阿 里 集团 对 外 提供 的 稳定 高 效 、 弹 性 伸缩 的 数据 同步 平台 ,为 阿里 云 大 
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数据 计算 引擎 (包括 MaxCompute、 分 析 型 数据 库 .OSPS) 提 供 离线 (批量 ) .实时 ( 流 式 ) 的 数 

5) 云 盾 

(1) DDoS(Distributed Denial of Service, 分 布 式 拒绝 服务 攻击 ) 防 护 服 务 。 针 对 阿里 云 
服务 器 在 遭受 大 流量 的 DDoS 攻击 后 导致 服务 不 可 用 的 情况 下 ,推出 的 付费 增值 服务 ,用 户 
可 以 通过 配置 高 防 IP, 将 攻击 流量 引流 到 高 防 IP, 确 保 源 站 的 稳定 可 靠 。 免费 为 阿里 云 上 
的 客户 提供 最 高 5G 的 DDoS 防护 能 力 。 

(2) 安 骑 士 。 阿 里 云 推出 的 一 款 免 费 云 服务 器 安全 管理 软件 ,主要 提供 木马 文件 查 杀 、 
防 密码 暴力 破解 ,高 危 漏 洞 修复 等 安全 防护 功能 。 

(3) 阿里 绿 网 。 基 于 深度 学 习 技 术 及 阿里 巴巴 多 年 的 海量 数据 支撑 ,提供 多 样 化 的 内 
容 识 别 服 务 ,能 有 效 地 帮助 用 户 降低 违规 风险 。 

(4) 安全 网 络 。 一 款 集 安全 、 加 速 和 个 性 化 负载 均衡 为 一 体 的 网 络 接 入 产品 。 用 户 通 
过 接 入 安全 网 络 , 可 以 缓解 业务 被 各 种 网 络 攻击 造成 的 影响 ,提供 就 近 访 问 的 动态 加 速 
功能 。 

(5) DDoS 高 防 IP。 针 对 互联 网 服务 器 (包括 非 阿里 云 主机 ) 在 遭受 大 流量 的 DDoS 攻 
击 后 导致 服务 不 可 用 的 情况 下 ,推出 的 付费 增值 服务 ,用 户 可 以 通过 配置 高 防 IP, 将 攻击 流 
量 引流 到 高 防 卫 , 确 保 源 站 的 稳定 可 靠 。 

(6) 网 络 安全 专家 服务 。 在 云 盾 DDoS 高 防 IP 服务 的 基础 上 ,推出 了 安全 代 维 托管 服 
务 。 该 服务 由 阿里 云云 盾 的 DDoS 专家 团队 ,为 企业 客户 提供 私家 定制 的 DDoS 防护 策略 
优化 、 重 大 活动 保障 、 人 工 值守 等 服务 ,让 企业 客户 在 日 益 严重 的 DDoS 攻击 下 高 枕 无 忧 。 

CD 服务 器 安全 托管 。 为 云 服务 器 提供 定制 化 的 安全 防护 策略 、 木 马 文件 检测 和 高 危 
漏洞 检测 与 修复 工作 。 当 发 生 安 全 事件 时 ,阿里 云 安全 团队 提供 安全 事件 分 析 和 响应 ,并 进 
行 系统 防护 策略 的 优化 。 

(8) 渗透 测试 服务 。 针 对 用 户 的 网 站 或 业务 系统 ,通过 模拟 黑客 攻击 的 方式 ,进行 专业 
性 的 入 侵 尝 试 ,评估 出 重大 安全 漏洞 或 隐患 的 增值 服务 。 

(9) 态势 感知 。 专 为 企业 安全 运 维 团队 打造 ,结合 云 主机 和 全 网 的 威胁 情报 ,利用 机 器 
学 习 进 行 安全 大 数据 分 析 的 威胁 检测 平台 。 可 让 客户 全 面 、 快 速 \ 准 确 地 感知 过 去 、 现 在 、 未 
来 的 安全 威胁 。 

6) 管理 与 监控 

(1) 云 监 控 。 一 个 开放 性 的 监控 平台 ,可 实时 监控 用 户 的 站 点 和 服务 器 ,并 提供 多 种 告 
警方 式 (短信 、 旺 旺 、 邮 件 ) ,以 保证 及 时 预警 ,为 用 户 的 站 点 和 服务 器 的 正常 运行 保驾 护航 。 

(2) 访问 控制 。 一 个 稳定 可 靠 的 集中 式 访问 控制 服务 。 用 户 可 以 通过 访问 控制 将 阿里 
云 资 源 的 访问 及 管理 权限 分 配给 用 户 的 企业 成 员 或 合作 伙伴 。 

7) 应 用 服务 

CD 日 志 服务 。 针 对 日 志 收 集 、 存 储 、. 查 询 和 分 析 的 服务 。 日 志 服务 可 收集 云 服 务 和 应 
用 程序 生成 的 日 志 数据 并 编制 索引 ,提供 实时 查询 海量 日 志 的 能 力 。 

(2) 开放 搜索 。 解 决 用 户 结构 化 数据 搜索 需求 的 托管 服务 ,支持 数据 结构 、 搜 索 排序 、 
数据 处 理 自由 定制 。 开 放 搜索 为 用 户 的 网 站 或 应 用 程序 提供 简单 、 低 成 本 、 稳 定 和 高 效 的 搜 
索 解 决 方案 。 
































(3) 媒体 转 码 。 为 多 媒体 数据 提供 的 转 码 计算 服务 。 它 以 经 济 、 弹 性 和 高 可 扩展 的 音 
视频 转换 方法 ,将 多 媒体 数据 转 码 成 适合 在 PC、TV 以 及 移动 终端 上 播放 的 格式 。 

(4) 性 能 测试 。 全 球 领 先 的 SaaS(Software as a Service, 软 件 即 服 务 ) 性 能 测试 平台 , 具 
有 强大 的 分 布 式 压力 测试 能 力 , 可 模拟 海量 用 户 真实 的 业务 场景 ,让 应 用 性 能 问题 无 所 授 
形 。 性 能 测试 包含 两 个 版 本 ,Lite 版 适合 于 业务 场景 简单 的 系统 ,免费 使 用 ; 企业 版 适合 于 
承受 大 规模 压力 的 系统 ,同时 每 月 提供 免费 额度 ,可 以 满足 大 部 分 企业 客户 。 

(5) 移动 数据 分 析 。 一 款 移 动 App 数据 统计 分 析 产 品 , 提 供 通用 的 多 维度 用 户 行为 分 
析 ,支持 日 志 自 主 分 析 ,助力 移动 开发 者 实现 基于 大 数据 技术 的 精细 化 运营 、 提 升 产品 质量 
和 体验 .增强 用 户 黏 性 。 

8) 万 网 服务 

阿里 云 旗下 万 网 域名 ,连续 19 年 蝉联 域名 市 场 NO. 1, 近 1000 万 个 域名 在 万 网 注册 。 
除 域名 外 ,提供 云 服务 器 、 云 虚拟 主机 、 企 业 邮箱 .建站 市 场 和 云 解析 等 服务 。2015 年 7 月 ， 
阿里 云 官 网 与 万 网 网 站 合 二 为 一 ,万 网 旗下 的 域名 \ 云 虚拟 主机 ,企业 邮箱 和 建站 市 场 等 业 
务 深度 整合 到 阿里 云 官 网 ,用 户 可 以 网 站 上 完成 网 络 创业 的 第 一 步 。 


1.9.3 数 加 平台 优势 特色 


1. 一 站 式 大 数据 解决 方案 

从 数据 导入 、 查 找 `. 开 发 .ETL@ 调度、 部署. 建 模 ` 质量. 血缘 ,到 服务 开发 发布. 应 用 
托管 ,以 及 外 部 数据 交换 的 完整 大 数据 链 路 ,一 站 式 集 成 开发 环境 ,降低 数据 创新 与 创业 
成 本 。 

2. 大 数据 与 云 计算 的 无 颖 结合 

阿里 云 数 加 平台 构建 在 阿里 云云 计算 基础 设施 之 上 ,使 用 大 数据 开发 及 应 用 套件 能 够 
流畅 对 接 MaxCompute 等 计算 引擎 ,支持 云 服务 器 ECS、 云 数据 库 RDS、 分 析 型 数据 库 
AnalyticDB 云 设施 下 的 数据 同步 与 应 用 开发 。 

3. 企业 级 数据 安全 控制 

阿里 云 数 加 平台 建立 在 安全 性 在 业界 领先 的 阿里 云 上 ,并 集成 了 最 新 的 阿里 云 大 数据 
产品 。 这 些 大 数据 产品 的 性 能 和 安全 性 在 阿里 巴巴 集团 内 部 已 经 得 到 多 年 的 锤炼 。 这 些 产 
品 集成 的 架构 经 过 不 断 迭 代 , 目 前 正在 为 大 数据 安全 国标 工作 组 借鉴 。 在 多 租户 的 数据 合 
作业 务 场景 下 ,大 数据 平台 采用 了 先进 的 “可 用 不 可 见 ” 的 数据 合作 方式 ,并 对 数据 所 有 者 提 
供 全 方位 的 数据 安全 服务 ,数据 安全 体系 包括 数据 业务 安全 、 数 据 产品 安全 、 底 层 数 据 安全 、 
云 平台 安全 、 接 入 & 网 络 安全 和 运 维 管理 安全 。 


1.9.4 机 器 学 习 平 台 简 介 


阿里 PAI 机 器 学 习 平 台 是 构建 在 阿里 云 MaxCompute 计算 平台 之 上 , 集 数 据 处 理 、 建 
模 、 离 线 预 测 、 在 线 预 测 为 一 体 的 机 器 学 习 平台 。 该 平台 为 算法 开发 者 提供 了 丰富 的 MPI 
PS、BSP 等 编程 框架 和 数据 存 取 接口 ,孕育 于 阿里 “数据 - 云 -计算 ”生态 系统 ,高 效 地 配置 计 








© ETL: Extract-Transform-Load 用 来 描述 将 数据 从 来 源 端 经 过 抽取 (extract) .转换 (transform) 、 加 载 (load) 至 目 
的 端的 过 程 。 
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算 资 源 , 为 数据 赋 能 。 它 提供 算法 开发 .分 享 、 模 型 训练 .部 署 ,监控 等 一 站 式 算法 服务 ,支持 
处 理 亿 万 级 大 规模 数据 。 用 户 无 需 编码 ,可 以 通过 可 视 化 的 操作 界面 来 操作 整个 实验 流程 ， 
同时 也 支持 PAI 命令 ,让 用 户 通过 命令 行 来 操作 实验 。 平台 目前 整合 了 集团 内 最 先进 的 算 
法 ,为 集团 内 外 不 同 用 户 提供 算法 服务 。 下 面 对 平 台 常 用 专业 名 词 进行 解释 。 

。 MaxCompute: 开放 数据 处 理 服务 由 阿里 云 自主 研发 ,提供 针对 TB/PB 级 数据 、 实 
时 性 要 求 不 高 的 分 布 式 处 理 能 力 ,应 用 于 数据 分 析 挖掘、 商业 智能 等 领域 。 
THA (Project): 项 目 ( 也 称 项 目 空间 ) 是 MaxCompute 最 基本 的 组 织 对 象 ,其 他 对 象 
例如 , 表 (Table) 和 实例 (Instance) 等 都 归属 于 某 个 项 目 。 
实验 (Experiment) : 实验 是 指 阿 里 云 机 器 学 习 平 台 用 户 搭建 的 数据 工作 流程 或 者 
数 应 用 。 用 户 需要 先 建立 一 个 实验 实例 ,然后 在 实验 画布 上 搭建 数据 流程 。 
MaxCompute 源 表 与 MaxCompute 目标 表 (Table) : 表 (Table) 是 MaxCompute 中 
数据 存储 对 象 。 与 常见 的 关系 型 数据 类 似 ,MaxCompute 中 的 表 罗 辑 上 也 是 二 维 结 
构 。 源 表 指 一 个 算法 结 点 的 输入 ,目标 表 指 算法 结 点 的 输出 。 
组 件 (Nodes): 组 件 是 用 户 可 以 在 阿里 云 机 器 学 习 平 台 上 调用 执行 的 最 小 操作 单 
元 ,例如 ,数据 导入 导出 ,数据 处 理 、 数 据 分 析 、 模 型 训练 或 者 预测 。 
模型 (Model) : 模型 是 特 指 一 个 算法 或 者 机 器 学 习 训 练 组 件 产 生 的 结果 数据 。 模 型 
是 一 类 特殊 的 组 件 。 

。 分 区 (partition) : MaxCompute 表 分 区 。 

阿里 云 机 器 学 习 平 台 的 产品 主要 优势 可 以 概括 为 以 下 几 方 面 。 

1. 良好 的 交互 设计 

通过 拖 电 的 方式 搭配 实验 ,并 且 提 供 了 数据 模型 的 可 视 化 功能 ,缩短 了 用 户 与 数据 的 距 
离 , 真 正 实 现 了 数据 的 触手 可 及 。 同 时 也 提供 了 命令 行 工 具 , 方 便 用 户 将 算法 嵌入 到 自身 的 
工程 中 。 

2. 优质 .丰富 的 机 器 学 习 算法 

平台 上 的 机 器 学 习 算法 都 是 经 过 阿里 大 规模 业务 锤炼 的 。 从 算法 的 丰富 性 角度 来 看 ， 
阿里 云 机 器 学 习 平 台 不 仅 提供 了 基础 的 聚 类 、 回 归 等 机 器 学 习 算 法 ,也 提供 了 文本 分 析 、 特 
征 处 理 的 算法 。 

35 es 

使 用 阿里 云 机 器 学 习 平 台 计 算 的 模型 直接 存储 在 MaxCompute 上 ,可 以 配合 其 他 阿里 
云 的 产品 组 件 加 以 利用 。 

4. 优质 的 技术 保障 

阿里 云 机 器 学 习 算法 平台 的 背后 是 阿里 巴巴 IDST 的 算法 科学 家 和 阿里 云 的 技术 保障 
团队 ,在 使 用 过 程 中 遇 到 任何 问题 都 可 以 到 工 单 系统 提交 工 单 或 者 直接 与 相关 接口 人 联系 。 
1.9.5 机 器 学 习 平 台 功 能 

PALI 主要 应 用 在 数据 挖掘 场景 下 , 即 指 从 大 量 的 数据 中 通过 算法 搜索 隐藏 于 其 中 信息 
的 过 程 。 通 过 统计 在 线 分 析 处 理 、 情 报 检索 、 机 器 学 习 、 专 家 系统 (依靠 过 去 的 经 验 法 则 ) 和 


模式 识别 等 诸多 方法 来 实现 隐藏 信息 的 探索 和 发 现 。 其 场景 主要 如 下 。 
CD) 分 类 。 分 类 可 以 找 出 这 些 不 同 种 类 客户 之 间 的 特征 ,让 用 户 了 解 不 同行 为 类 别 客 

















户 的 分 布 特征 ,从 而 进行 商业 决策 和 业务 活动 ,如 在 银行 业 ,可 以 通过 PAI 对 客户 进行 分 
类 ,以 便 进行 风险 评估 和 防 控 ; 在 销售 领域 ,可 以 通过 对 客户 的 细 分 ,进行 潜在 客户 挖掘 、 客 
户 提升 和 交叉 销售 客户 挽留 等 。 

(2) 聚 类 。 通 常 * 人 以 群 分 , 物 以 类 聚 ”, 通 过 对 数据 对 象 划分 为 若干 类 ,同一 类 的 对 象 
具有 较 高 的 相似 度 , 不 同类 的 对 象 相似 度 较 低 , 以 便 人 们 度量 对 象 间 的 相似 性 ,发 现 相 关 性 。 
如 在 安全 领域 ,通过 异常 点 的 检测 ,可 以 发 现 异常 的 安全 行为 ; 通过 人 与 人 之 间 的 相似 性 ， 
实现 团伙 犯罪 的 发 掘 。 

(3) 预测 。 通 过 对 历史 事件 的 学 习 来 积累 经 验 , 得 出 事物 间 的 相似 性 和 关联 性 ,从 而 对 
事物 的 未 来 状况 做 出 预测 。 例 如 ,预测 销售 收入 和 利润 ,预测 用 户 下 一 个 阶段 的 消费 行 
为 等 。 

OD 关联 。 分 析 各 个 物品 或 者 商品 之 间 同 时 出 现 的 几率 ,典型 的 场景 如 购物 篮 分 析 。 
例如 超市 购物 时 ,顾客 购买 记录 常常 隐 含 着 很 多 关联 规则 ,如 购买 圆珠笔 的 顾客 中 有 6596 
也 购买 了 笔记 本 ,利用 这 些 规则 ,商场 人 员 可 以 很 好 地 规划 商品 摆 放 问题 。 在 电 商 网 站 中 ， 
利用 关联 规则 可 以 发 现 哪些 用 户 更 喜欢 哪 类 的 商品 , 当 发 现 有 类 似 的 客户 的 时 候 , 可 以 将 其 
他 客户 购买 的 商品 推荐 给 相 类 似 的 客户 ,以 提高 网 站 的 收入 。 

1.9.6 机 器 学 习 平台 操作 流程 
准备 工作 

使 用 阿里 云 机 器 学 习 之 前 ,打开 帮助 与 文档 (如 图 1-9 所 示 ), 阅 读 大 数据 计算 服务 
MaxCompute 快速 开始 , 单 击 准备 工作 ,根据 里 面 的 提示 到 阿里 云 官网 申请 access ID 和 
access key ,开通 大 数据 计算 服务 MaxCompute, 根 据 文中 提示 ,建立 项 目 空 间 , 然 后 确保 电 
脑 上 有 JRE 1.6, 便 可 以 进行 MaxCompute 的 安装 了 
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图 1-9 阿里 云 帮助 与 文档 界面 


大 数据 简介 


mA 
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单 击 安装 配置 客户 端 ,根据 里 面 的 提示 ,下 载 客户 端 ,然后 配置 环境 ,这 里 需要 注意 的 
是 ,Windows 10 的 系统 可 能 不 兼容 。 

用 户 会 在 阿里 云 平台 上 看 到 如 图 1-10 所 示 的 界面 ,而 实际 界面 如 图 1-11 所 示 。 
FEREESRISCEESETHIDILUEESISIT 下 4 个 文件 于 : 











1. bin/ conf/ lib/ plugins/ 


许 conf 文 件 夹 中 有 odps_config.ini 文 件 。 纤 辑 此 文件 ， 填 写 相关 信息 : 


1. access id-***eeessssesese sens 
2. access key-*eeeeeeeneeeseossenes 
3. # Accesss ID 及 Access Key 是 用 户 的 云 账号 信息 ， 用 户 在 阿里 云 官网 上 可 以 获取 
4. project_name=my_project 
s. # 指定 用 户 想 进入 的 项 目 空间 。 
6. end point-https://service.odps.aliyun.com/api 
# MaxCompute 服 务 的 访问 连接 
8. tunnel endpoint-https://dt.odps.aliyun.com 
3. # MaxCompute Tunnel 服 务 的 访问 连接 
10. log_view_host=http://logview.odps.aliyun. com 
u. * 当 用 户 执行 一 个 作业 后 ， 客 户 端 会 返回 该 作业 的 LogView 地 址 。 打开 改 地 址 将 会 看 到 作业 执行 的 详细 信息 
12. https_check=true 
13. ## 决 定 是 否 开局 HTTPS 访 问 








图 1-10 阿里 云 环境 配置 帮助 界面 








access_key=<accesskey> 
end_point=http://service. odps. aliyun. com/api 
tunnel_endpoint=http://dt. odps. aliyun. com 


log_view_host=http://logview. odps. aliyun. com 
https_check=true 





图 1-11 真实 环境 配置 界面 


如 图 1-11 Bros ,需要 注意 的 是 ,第 一 行 填 的 是 一 开始 自己 创建 的 项 目 空间 名 ,第 二 行 和 
第 三 行 的 “<>” 需 要 自己 删除 ,第 四 行 与 第 五 行 的 “http” 后 面 需要 手工 添加 “s”。 修 改 好 配置 
文件 后 ,运行 bin 目录 下 的 odps, 如 图 1-12 所 示 。 

这 时 便 需 要 学 习 一 些 基 本 的 平台 里 的 类 SQL 语句 ,用 来 进行 表 操作 ,其 中 ,所 有 的 类 SQL 语 
句 是 不 区 分 大 小 写 的 。 表 是 阿里 云 平台 存储 数据 的 基本 单位 ,图 1-13 为 创建 表 的 通用 语句 。 

例如 ,我 们 创建 这 样 一 个 表 user, 包 括 如 下 信息 。 

* user id bigint 类 型 ,用 户 标识 ,唯一 标识 一 个 用 户 ; 

* gender bigint 类 型 ,性 别 (0, 未 知 ; 1, 男 ; 2, 女 ); 

。 age bigint ,用户 年 龄 。 

图 1-14 便 是 在 odps 中 的 建 表 语 句 和 输出 结果 。 

使 用 语句 “desc < 表 名 >”, 便 可 查看 表 的 信息 ,如 图 1-15 Bras. 


Bi C\Windowsoytens2\cmdoxe NE 


fAliyun ODPS Command Line Tool 
Version 8.21.1 

Copyright 2815 Alibaba Cloud Computing Co., Ltd. All rights reserved. 
lodns? guanyaoDemo> 








r7 











Él 1-12 odps 操作 界面 





CREATE TABLE [IF NOT EXISTS] table name 
[(col name data type [COMMENT col comment], ...)] 
[COMMENT table comment] 

4 [PARTITIONED BY (col name data type [COMMENT col comment], ...)] 
[LIFECYCLE days] 
[AS select statement] 


CREATE TABLE [IF NOT EXISTS] table name 


LIKE existing table name 








图 1-13 阿里 云 表 创建 的 语句 示例 


lodps@ guanyaoDemo>create table user Cuser_id bigint, der bigint connent'B unk 
inow,1 male, 2 female’, age bigint) partitioned by (region string, dt string) lifl 
lecycle 365; 


ID = 20160723031822611gteop8jc2 
Log view: 
http: //loguiew.odps -aliyun.con/loguiew/?h=https ://service .odps .aliyun.con/api&p-| 


iguan yao Demo&i =2616872363182261 1gteop8 jc2&token=bHNEc GQve DBQUU pNenUvYUK3NBB5 dU1KR| 
IK hRPSxPRFBTREU9CTzoxNjQuNzYBN jAZM2g2MjU yLDEGNjk4NDgIMDMse yITAGFOZW1 1bnQi01t 71 kF jd| 
Glubil 6WyJuZHBzO1J1LYWQixXSwiRWZmZWNGl joiQUxsb3ciLCJSZXNudXJ jZS 16 WyJh¥ 3M6b2Rwczoqo| 
inByb2p1¥3R2L2d1 YWSSYW9kZW1 vL2 Iuc3RhbnN1c y8 yHDE2HMDc yMzAzMT g y. j Y xHWdBZW9 vOGp jHiJdf 
U@s I 1Z1cnNph24i0il xIn@= 

OK 

jodps@ guanyaoDemo> 


图 1-14 odps 表 创 建 操作 实例 











大 数据 挖 据 与 应 用 


lodps@ guanyaoDemo>dese user; 
+ 


1 Ouner: ALIYUNSwang_zhenwu ! Project: 


! TableComment = 


—+ 


CreateTime: 2616-87-23 


2016-87-23 


2016-87-23 


i InternalTable: YES 1 Size: 


! bigint 1 1 Ø unknow,1 male, 2 female 


! bigint 





图 1-15 创建 表 的 信息 


了 解 如 何 建 表 后 . 接 下 来 便 是 数据 的 导入 问题 了 ,我们 准备 本 地 文件 wc_example. txt. 
内 容 如 下 。 

(1) ILOVE CHINA! 

(2) MY NAME IS MAGGIE. I LIVE IN HANGZHOU! I LIKE PALYING 
BASKETBALL! 

可 将 该 文件 存 入 E:\max\bin 目录 下 。 这 时 需要 创建 一 张 表 ,将 之 命名 为 wein, 如 
图 1-16 所 示 。 

输入 表 创 建成 功 后 ,可 以 在 MaxCompute 客户 端 输入 tunnel 命令 ,进行 数据 的 导入 。 
输入 语句 如 下 ,运行 结果 如 图 1-17 所 示 。 


Tunnel upload E:\max\bin\wc_example. txt wc_in; 











odps@ guanyaoDemo>create table we_inCword string); 


ID = 28168723888351573gaqbx6 jc2 
Log view: 


Ihttp://logveiew.odps.aliyun.com/logview/?h-https ://serveice.odps .aliyun.com/api&p-] 
0160723080351573gaqbx6 jc2&token -bUhyc 1dNc INRZOpMR1 R4bn 14T1 hnbz RUZ| 


DN3PSxPRFBTX89CTzoxNjQuNz YON jA2Mzg2M jU yLDEBN j k4N jU4Mz I se yJTAGPOZW1 1bnQiOlt?7TKkF jd} 
lvbil6MyJeZHBzO1J1VYWQiXSuiRWZmZWNEI jo iQWxsb3c iLCJSZXNudX J jZS 16V yJhY3M6 b2Rwczoqo| 


InByb2p1V3RzL2diYUSSVyU9 kZU1vL2 uc3RhbnN1c y8 yHDE2MDc yz 4MDM1MTU3M2 dhc V T4Nnp jMiddt 
gs I11ZlcnNpb24iOilxIn8- 


图 1-16 wc in 表 创建 的 操作 界面 


lodps! OY CE 
Upload session: 291697231694487e399aBaBB725b94 
NStart upload:E:\nax\bin\we_example.txt 
Using rn to split records 
Split input to 1 blocks 
95:802 scan block: ’1’ 
scan block complete, blockid-i 
upload block: ’1’ 
upload block complete, blockid- 
upload complete, average speed is 39 bytes/s 
lox 





图 1-17 上 传 数据 操作 界面 


语句 "select x from wc i 





hdps@ guanyaoDemo>select * fron wc_in; 


20160723081522182giev57jc2 

Log view: 

ttp://loguiew.odps -aliyun.con/loguiew/?h=https ://service .odps .aliyun.con/api&p-| 
juan yaoDenoki=26160723081522182g ievS?,jc2&token =bUGZN24ycH p1UHZGLOtUUmZqbHFZNUZHA 
xZPSxPRFBTXO9CTzoxN,jQuNz¥ ON jA2Mzg2M jU yLDEON jk4NjY1M jl se yJTdGFOZM1 1bnQiOlt7IKF jd| 
lebil6UyJvZHBzO1J1VUQiXSwiRVZnZWNGI jo iQxsh3c LCJS ZR NvdX J.jZS 6H yJhY3H6b2Ruczoqo| 


Byh2p1V3RzL2diVUSSVUSkZW1oL2 Iuc3RhbnN1c y8 yHDE2MDc yMzA4MTU vM j EAMnd pZX V1 N2 p.jMi Jdf| 
As 1 1Z1cnNpb24i0ilxIn@= 


I LOVE CHINA; ! 
MY NAME IS MAGGIE.ILIVE IN HANGZHOU??I LIKE PLAYING BRSKETBALL?? | 


n 





图 1-18 查看 数据 操作 界面 


1-19 所 示 


[Log view: 

http: //loguiew.odps .aliyun.com/loguieu/?h=https://service .odps .aliyun.com/api&p- 
igdata. demo&i-2816880911464243993hbz4f qp&token -SUpLUGSTU3UXRntOM1 UBYThMdE9 JUnFZN 
8uPS xPRFBTXG9CTzoxNjQuNz YON jA2M2g2M jU yYLDEONzEZNDguMDMse yJTAGFOZW1 1bnQi01t 7IkF jd| 
lubil 6WyJuZHBz01J1YWQikS wiRWZnZWNOI jo iQUxs b3c iLCJSZXNodXJ jZS I 6MyThY3M6b2Rwezoq0| 


Byb2p1V3RzL2JpZ2RhdGFf ZGUt by? phn Ney! MuMjAxNijAAMDkxMTQ2NDI BMz InM2J6NGZxcCJdf 
Bs I 1Z1cnNpb24iO0ilxIni 





图 1-19 删除 表 操作 界面 





台 操作 








当然 ,在 用 户 开通 了 机 器 学 习 项 目 之 后 ,对 于 表 的 操作 以 及 数据 的 导入 会 更 容易 一 点 。 





" 便 可 以 查看 数据 存 入 表 中 的 状况 ,如 图 1-18 所 示 


大 数据 简介 
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进入 控制 台 , 单 击 机 器 学 习 , 进 入 自己 的 项 目 空间 , 便 可 以 看 到 如 图 1-20 所 示 的 界面 。 











W SR 
E sale detail 


三 $88 





日 guanxi. data 





图 1-20 阿里 云 机 器 学 习 平 台 左 侧 


在 数据 源 栏 里 可 以 搜索 到 已 存 入 MaxCompute 中 的 表 , 同 时 也 可 创建 表 , 以 表 bank 
data 为 例 进行 创建 表 以 及 导入 数据 的 操作 ,该 表 的 下 载 链 接 如 下 。 

https://docs-aliyun. cn-hangzhou. oss. aliyun-inc. com/cn/shujia/0. 2. 00/assets/pic/ 
data-develop/banking. txt? spm— 5176. doc30267. 2. 1. 57FefB&-file— banking. txt 

该 表 每 列 的 说 明 如 下 , 它 只 是 一 个 普通 的 银行 客户 的 信息 表 , 如 表 1-16 所 示 。 选 择 这 
个 表 是 因为 它 的 数据 类 型 多 样 ,每 一 列 的 数值 类 型 也 多 样 ,后 续 的 第 2 章 和 第 4 章 可 方便 地 
使 用 这 个 数据 表 进 行 相关 算法 的 操作 。 

#1-16 银行 客户 信息 


























列 名 数据 类 型 对 列 名 的 解释 
age bigint 年 龄 
job string 工作 类 型 
marital string eA 
education string 教育 程度 
default string 是 否 有 信用 卡 
housing string 房贷 


续 表 





















































列 名 数据 类 型 对 列 名 的 解释 
loan string 贷款 
contact string 联系 途径 
month string 月 份 
day_of_week string 星期 几 
duration string 持续 时 间 
campaign int 本 次 活动 联系 的 次 数 
pdays double 与 上 一 次 联系 的 时 间 间 隔 
previous double 之 前 与 客户 联系 的 次 数 
poutcome string 之 前 市 场 活动 的 结果 
emp_var_rate double 就 业 变化 速率 
cons_price_idx double 消费 者 物价 指数 
cons_conf_idx double 消费 者 信心 指数 
euribor3m double 欧元 存款 利率 
nr_employed double 职工 人 数 
y bigint 是 否 有 定期 存款 


单 击 图 1-21 中 的 创建 表 , 输 入 表 名 bank_data, 如 图 1-21 所 示 。 

















WE 类 型 是 否 分 区 字段 








图 1-21 台 创 建 表 名 操作 界面 


单 击 “ 确 定 ” 按 钮 ,然后 依次 单 击 表 结构 右边 的 绿色 的 加 号 ,输入 列 名 以 及 该 列 数据 的 数 
据 类 型 ,如 图 1-22 所 示 , 图 中 有 部 分 显示 不 出 来 的 部 分 是 浏览 器 不 兼容 的 问题 。 再 单 击 “ 确 第 
定 ” 按 钮 , 即 完 成 了 表 bank data 的 创建 . 接 下 来 便 是 数据 导入 的 问题 了 。 





m-— 


大 数据 简介 
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创建 表 ESSE 
EZH «= 
XE 表 不 存在 , 请 先 设计 去 结构 
bank_data 
保存 时 长 
180 天 
表 结 构 e 
Lm jismg +) u w 
PaaS | [sting :| 加 
pum | [sting :| 加 
nim | [sting s] @ 
pum ][smng +] e 
pum | [string e 
— lif stina +) m 6 














Ed | 


图 1-22 输入 表 的 信息 操作 界面 


再 次 单 击 图 1-21 中 的 创建 表 , 输 入 表 名 bank_data, 单 击 “ 确 定 ” 按 钮 ,如 图 1-23 所 示 。 








创建 表 em x 
a | 
*- 
bank data 
bank data 1 
Log cun 























图 1-23 数据 上 传 操作 界面 


村 可 以 看 到 如 图 1-24 所 示 的 界面 ,再 单 击 “ 数 据 ” 页 签 。 

i 击 选择 文件 ,找到 存储 bank. data 表 的 所 在 地 , 便 出 现 如 图 1-25 所 示 的 界面 ,由 于 该 
REIT“. ”, 每 列 由 “,” 分 隔 , 分 别 输入 于 行列 分 隔 符 , 单 击 “ 确 定 ? 按 钮 , 即 可 完成 数据 的 
Ee. 

















XE 



































创建 表 


sata E 


数据 预览 banking bt 
44 blue-collar married basic4y 
53 technician ^ married unknown 


28 management single — university.degree 


39 services married high.school 
55 retired married basic4y 
ARAME MECL CNLE as 





图 1-24 数据 上 传 操作 界面 


unknown yes 
no no 
no yes 
no no 
no yes 
nn yes 


注意 : 上 传 的 数据 棕 要 差 原 去 的 数据 , BLS btm csv tit 


f153/855 ( RAES V , m 或 vn) Piste 


创建 表 XE 

Ea = 

XE BOSH, 可 以 直接 上 传 数据 

El 
We xm 是 否 分 区 字段 
age BIGINT Li 
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图 1-25 数据 上 传 操作 界面 


组 件 里 面 是 机 器 学 习 的 常用 方法 ,可 以 将 其 拖 入 画布 中 ,进行 数据 挖掘 ,如 图 1-26 


所 示 。 


图 1-27 是 以 表 bank_data 为 例 进行 的 一 些 操 作 , 是 逻辑 








IT 





归 二 分 类 的 示例 操作 ,结果 





可 以 在 模型 中 查看 ,其 详细 描述 将 在 第 4 章 中 呈现 。 所 有 的 方法 均 是 从 组 件 中 拖 忠 至 画布 


中 ,然后 执行 。 流 程 是 从 上 到 下 的 。 
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图 1-26 平台 组 件 的 方法 展示 
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图 1-27 对 于 bank data 数据 集 的 操作 流程 





1.10 小 aa 


本 章 对 大 数据 的 基本 概念 进行 了 介绍 ,不 仅 介绍 了 大 数据 的 定义 、 特 点 及 挑战 ,还 介绍 
了 大 数据 挖掘 的 定义 和 特点 、 常 见 的 大 数据 挖掘 类 型 和 应 用 、 常 用 的 大 数据 统计 分 析 方 法 以 


及 大 数据 平 


台 相 关 技术 和 应 用 实例 。 


本 章 内 容 是 对 全 书 内 容 的 一 个 概括 。1.1 节 和 1.2 节 介 绍 了 大 数据 及 大 数据 挖掘 的 基 


本 概念 , AH 
和 类 型 进行 





E 解 大 数据 及 大 数据 挖掘 提供 了 基础 ; 1.3 节 和 1.4 节 对 大 数据 挖掘 的 相关 内 容 
了 概括 性 介绍 ,本 书 的 后 续 章节 会 对 数据 挖掘 的 主要 内 容 进 行 详细 介绍 ; 1.5 


节 对 大 数据 挖掘 的 3 种 常见 应 用 进行 了 简介 ,在 本 书 的 第 15—17 章 会 详细 介绍 它们 的 相关 


原理 和 技术 








; 1.6 节 和 1.7 节 对 常用 的 大 数据 统计 方法 和 评价 方法 进行 了 介绍 ,这 些 内 容 在 











后 续 章节 算法 的 介绍 中 会 用 到 ; 1. 8 节 和 1.9 节 对 大 数据 平台 的 基本 原理 和 实例 进行 了 介 
绍 , 其 中 1.8 节 对 大 数据 平台 的 相关 原理 和 技术 进行 了 简介 ,1.9 节 对 阿里 云 数 加 平台 的 基 
本 功能 和 操作 流程 进行 了 介绍 ,本 书 的 后 续 章 节 的 算法 会 在 阿里 云 数 加 平台 上 进行 操作 和 
演示 。 因 此 ,理解 本 章 的 基础 内 容 及 它们 之 间 的 相互 关系 ,对 于 理解 本 书后 续 章节 的 内 容 有 
很 大 的 帮助 作用 。 


. 大 数据 的 特点 有 哪些 ? 

. 简 述 大 数据 挖掘 的 特点 。 

. 列举 数据 挖掘 的 相关 内 容 。 

. 简 述 大 数据 平台 相关 技术 。 

- 理解 并 掌握 阿里 云 数 加 平台 的 基本 功能 及 操作 流程 。 





cn oo 


大 数据 简介 


mn 


M 
3 





第 2 章 数据 预 处 理 技术 





2.1 数据 预 处 理 的 目的 


数据 预 处 理 (Data Preprocessing) 是 指 在 对 数据 进行 数据 挖掘 的 主要 处 理 以 前 , 先 对 原 
始 数据 进行 必要 的 清理 、 集 成 、 转 换 、 离 散 、 归 约 、 特 征 选择 和 提取 等 一 系列 处 理工 作 , 达 到 挖 
掘 算法 进行 知识 获取 研究 所 要 求 的 最 低 规 范 和 标准 。 

数据 挖掘 的 对 象 是 从 现实 世界 采集 到 的 大 量 的 各 种 各 样 的 数据 。 由 于 现实 生产 和 实际 
生活 以 及 科学 研究 的 多 样 性 ,不 确定 性 .复杂 性 等 ,导致 采集 到 的 原始 数据 比较 散乱 ,它们 是 
不 符合 挖掘 算法 进行 知识 获取 研究 所 要 求 的 规范 和 标准 的 ,主要 具有 以 下 特征 。 

CD 不 完整 性 。 不 完整 性 指 的 是 数据 记录 中 可 能 会 出 现 有 些 数据 属性 的 值 丢失 或 不 确 
定 的 情况 ,还 有 可 能 缺失 必需 的 数据 。 这 是 由 于 系统 设计 时 存在 的 缺陷 或 者 使 用 过 程 中 一 
些 人 为 因素 造成 的 .如 有 些 数据 缺失 只 是 因为 输入 时 认为 是 不 重要 的 ,相关 数据 没有 记录 可 
能 是 由 于 理解 错误 ,或 者 因为 设备 故障 ,与 其 他 记录 不 一 致 的 数据 可 能 已 经 删除 ,历史 记录 
或 修改 的 数据 可 能 被 忽略 等 。 

(2) 含 噪声 。 含 噪声 指 的 是 数据 具有 不 正确 的 属性 值 ,包含 错误 或 存在 偏离 期 望 的 离 
群 值 ?。 产 生 的 原因 很 多 ,例如 收集 数据 的 设备 可 能 出 故障 ,人 或 计算 机 的 错误 可 能 在 数据 
输入 时 出 现 , 数 据 传输 中 也 可 能 出 现 错误 等 。 不 正确 的 数据 也 可 能 是 由 命名 约定 或 所 用 的 
数据 代码 不 一 致 ,或 输入 字段 (如 时 间 ) 的 格式 不 一 致 而 导致 的 。 实 际 使 用 的 系统 中 ,还 可 能 
存在 大 量 的 模糊 信息 ,有 些 数据 甚至 还 具有 一 定 的 随机 性 。 

(3) 杂乱 性 (不 一 致 性 )。 原 始 数据 是 从 各 个 实际 应 用 系统 中 获取 的 ,由 于 各 应 用 系统 

的 数据 缺乏 统一 标准 的 定义 ,数据 结构 也 有 较 大 的 差异 ,因此 各 系统 间 的 数据 存在 较 大 的 不 
一 致 性 ,往往 不 能 直接 使 用 。 同 时 ,来自 不 同 的 应 用 系统 中 的 数据 ,由 于 合并 还 普遍 存在 数 
据 重 复 和 信息 元 余 现象 。 
忆 此 ,这 里 说 存在 不 完整 的 、 含 噪声 的 和 不 一 致 的 数据 是 现实 世界 大 型 的 数据 库 或 数据 
仓库 的 共同 特点 。 一 些 比较 成 熟 的 算法 对 其 处 理 的 数据 集合 一 般 都 有 一 定 的 要 求 ,例如 数 
据 完 整 性 好 、 数 据 的 元 余 性 少 、. 属 性 之 间 的 相关 性 小 。 然 而 ,实际 系统 中 的 数据 一 般 都 不 能 
直接 满足 数据 挖掘 算法 的 要 求 , 因 此 必须 对 数据 进行 预 处 理 , 以 提高 数据 质量 ,使 之 符合 数 
据 挖掘 算法 的 规范 和 要 求 。 数 据 预 处 理 的 常见 问题 如 下 。 














O ”高 群 值 是 指 在 数据 中 有 一 个 或 几 个 数值 与 其 他 数值 相 比 差异 较 大 。 
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(1) 数据 采样 (Data Sampling) 。 数 据 采 样 技术 分 为 加 权 采 样 、 随 机 采样 和 分 层 采 样 三 
类 ,其 目的 是 从 数据 集中 采集 部 分 样本 进行 处 理 。 

(2) 数据 清理 (Data Cleaning) 。 数 据 清理 技术 通常 包括 填补 遗漏 的 数据 值 . 平 滑 有 噪 
声 数据 、 识 别 或 除去 异常 值 ,以 及 解决 不 一 致 问题 。 

(3) 数据 集成 (Data Integration) 。 将 来 自 多 个 数据 源 的 数据 合并 ,形成 一 致 的 数据 存 
储 , 如 将 不 同 数据 库 中 的 数据 集成 到 一 个 数据 仓库 中 存储 。 有 时 数据 集成 之 后 还 需要 进行 
数据 清理 ,以 便 消除 可 能 存在 的 数据 元 余 。 

(4) 数据 变换 (Data Transformation) 。 主 要 是 将 数据 转换 成 适合 于 挖掘 的 形式 ,如 将 属 
性 数据 按 比 例 缩 放 , 使 之 落 入 一 个 比较 小 的 特定 区 间 , 这 一 点 对 那些 基于 距离 的 挖掘 算法 万 
为 重要 。 数 据 变换 的 具体 方法 包括 平滑 处 理 、 聚 集 处 理 .数据 泛 化 处 理 、 规 格 化 .属性 构造 。 

(5) 数据 归 约 (Data Reduction) 。 在 不 影响 挖掘 结果 的 前 提 下 ,通过 数值 聚集 .删除 元 
余 特 性 的 办 法 压缩 数据 ,提高 挖掘 模式 的 质量 ,降低 时 间 复 杂 度 。 

以 上 的 数据 预 处理 不 互 斥 ,例如 , 宛 余 数据 的 删除 既是 数据 清理 ,也 是 数据 规约 。 

(6) 数据 选择 (Feature Selection) 。 特 征 选择 是 从 原始 特征 中 挑选 出 一 些 最 优 代 表 性 的 
特征 , 它 分 为 过 滤 式 .封装 式 和 媒 入 式 3 种 类 型 。 

(7) 特征 提取 (Feature Extraction) 。 用 映射 (或 变换 ) 的 方法 把 原始 特征 变换 为 较 少 的 
新 特征 。 








2.2 数据 采样 


在 数据 挖掘 中 ,经 常会 用 到 采样 ,例如 欠 ( 过 ) 采 样 等 。 总 的 说 来 有 两 种 ,一 种 是 已 知 样 
本 总 量 n, 从 中 随机 抽 m 个 样本 ; 另 一 种 是 未 知 样本 总 量 , 从 中 抽取 mm 个 样本 ,这 种 情况 一 
般 是 流 数据 ,或 者 是 很 大 量 的 数据 。 


2.2.1 加 权 采 样 


定义 2.1: 通过 对 总 体 中 的 各 个 样本 设置 不 同 的 数值 系数 ( 即 加 权 因 子 -权重 ) ,使 样本 

呈现 希望 的 相对 重要 性 程度 。 其 中 ,一 般 加 权 的 计算 方法 如 下 。 
加 权 因子 王 某 个 变量 或 指标 的 期 望 比例 /该 变量 或 指标 的 实际 比例 

有 以 下 加 权 方 法 。 

1. 采用 因子 加 权 

对 满足 特定 变量 或 指标 的 所 有 样本 赋予 一 个 权重 ,通常 用 于 提高 样本 中 具有 某 种 特性 
的 被 访 者 的 重要 性 。 

例如 ,研究 一 种 香烟 的 口味 是 否 需要 改变 ,那么 不 同 程度 吸食 者 的 观点 也 应 该 有 不 同 的 
重要 性 对 待 。 例 如 令 重 度 吸食 者 一 3, 经 常 吸食 者 二 2, 偶尔 或 不 抽烟 王 1。 另 外 ,实际 应 用 
时 ,如 果 “ 经 常 或 偶尔 ”的 基数 足够 大 ,往往 单独 分 析 , 不 进行 加 权 处 理 。 

2. 采用 目标 加 权 

对 某 一 特定 样本 组 赋 权 ,以 达到 预期 的 特定 目标 。 

例如 ,我 们 想 要 : 品牌 A 的 20% 使 用 者 数目 二 品牌 B 的 50% 使 用 者 数目 ; 或 者 品 
A 的 20% 使 用 者 数目 = 使 用 品牌 A 的 80% 非 使 用 者 数目 。 


3. 采用 轮廓 加 权 

该 方法 为 多 因素 加 权 ,与 因子 /目标 加 权 不 同 ( 一 维 ) ,轮廓 加 权 应 用 于 对 调查 样本 相互 
关系 不 明确 的 多 个 属性 加 权 ; 面 对 多 个 需要 赋 权 的 属性 ,轮廓 加 权 过 程 应 该 同时 进行 ,以 尽 
量 地 减少 对 变量 产生 的 扭曲 。 

[6512.11 为 了 研究 某 小 公司 职员 吸烟 习惯 的 信息 ,进行 了 一 项 调查 。 从 N=78 个 人 
的 数据 中 抽出 了 一 个 n=25 人 的 简单 随机 样本 。 在 调查 的 设计 阶段 ,没有 可 用 于 分 层 的 畏 
助 信 息 。 在 收集 关于 吸烟 习惯 的 信息 的 同时 ,还 收集 了 每 个 回答 者 的 年 龄 和 性 别 情况 。 总 
共有 n= 二 15 个 人 作出 了 回答 。 

由 此 得 到 样本 数据 的 分 布 ,如 表 2-1 所 示 。 


dri 吸烟 人 数 统计 表 



























































回答 者 数量 男 性 x 性 总 计 
吸烟 的 人 数 1 7 8 
总 人 数 3 12 15(n,) 


修正 设计 权 数 ; ww =w =N . 2= By 3 121, 67=5.2 
ay n nr 29. 19 


假设 知道 某 公 司 约 有 16 个 男性 职员 和 62 个 女性 职员 ,而 且 男 女 的 吸烟 比例 不 同 。 经 
过 加 权 后 可 得 到 该 公司 吸烟 的 比例 估计 在 5396 ,如 表 2-2 所 示 。 加 权 采 样 的 应 用 场景 很 
多 ,例如 : 











表 2-2 吸烟 人 数 比 例 表 











调查 的 估计 值 男 性 X tt 总 计 
吸烟 人 数 52 36.4 41.6 
总 人 数 15.6 62. 4 78.0 

吸烟 者 的 比例 0.33 0.59 0.53 











情景 1: 我 们 在 抽样 调查 得 到 的 样本 结构 与 总 体 人 口 统计 结构 状况 不 相符 ,我 们 可 以 通 
过 加 权 消 除 或 还 原 这 种 结构 差异 ,达到 纠偏 的 目的 。 例 如 ,在 城市 和 农村 各 调查 300 样本 ， 
城市 与 农村 人 口 比例 ”城市 : 农村 三 1 : 2“ 假 设 ) ,在 分 析 时 我 们 希望 将 城市 和 农村 看 作 一 
个 整体 ,这 时 候 我 们 就 可 以 赋予 农村 样本 一 个 2 倍 于 城市 样本 的 权重 。 

情景 2: 除了 人 口 统计 结构 ,有 时 候 我 们 在 调查 样本 的 某 些 变量 或 指标 上 样本 的 代表 性 
可 能 也 会 相对 总 体 的 实际 状况 过 高 或 过 低 , 此 时 ,需要 加 权 进 行 调整 ; 这 类 不 匹配 大 多 是 我 
们 “故意 ”而 为 (通过 “追加 ”样本 实现 ) ,例如 在 配额 抽样 的 时 候 , 设 置 配额 要 求 某 类 被 访 者 对 
某 产 品 的 使 用 者 必须 达到 50%, 但 实际 情况 是 总 体 市 场 中 实际 使 用 者 仅 有 10%。 有 时 , 则 
是 “ 非 情 愿 ” 的 出 现 ,例如 设置 了 能 反映 总 体 的 配额 比例 ,但 实际 操作 却 出 现 了 比例 偏 高 或 
偏 低 。 

情景 3: 在 样本 组 配额 实验 设计 中 ,进行 不 同 子 总 体 对 比 检验 ,也 会 通过 加 权 调 整 不 同 
组 间 的 样本 属性 不 相 匹配 的 情形 (通常 设 有 相同 的 配额 ,但 执行 有 可 能 会 出 现 差 异 ) 。 通 常 ， 
加 权 对 结果 产生 的 差异 很 小 ,更 多 的 是 对 结果 从 准确 度 上 进行 修饰 。 

情景 4: 所 测试 样本 出 现 了 较 多 的 缺失 值 , 需 要 加 权 纠 正 结果 。 对 于 面向 特定 客户 的 专 
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项 研究 ,在 调查 前 基本 都 规定 有 要 完成 的 样本 量 , 故 这 种 情形 较 少 。 
2.2.2 随机 采样 


定义 2.2: 简单 随机 抽样 是 最 常用 的 抽样 方法 ,要 求 样 本 具有 随机 性 (总 体 中 每 一 个 个 
体 都 有 同等 机 会 被 选 入 样本 ,此 时 样品 与 总 体 具 有 相同 分 布 )、 独 立 性 (样品 间 相 互 独立 , 取 
值 不 受 影响 ) 。 

简单 随机 抽样 也 称 纯 随机 抽样 ,是 从 抽样 框 内 的 N 个 抽样 单元 中 随机 地 ,一 个 一 个 地 
抽取 ,n 个 单元 作为 样本 ,在 每 次 抽 选 中 ,所 有 未 入 样 的 待 选单 元 入 选 样本 的 概率 是 相等 的 ， 
这 个 被 抽 中 的 单元 就 构成 了 简单 随机 样本 。 

【 例 2.2】 某 车 间 工 人 加 工 一 种 轴 100 件 , 为 了 了 解 这 种 轴 的 直径 ,要 从 中 抽取 10 fF 
轴 在 同一 条 件 下 测量 ,采用 简单 随机 抽样 的 方法 抽取 样本 如 下 。 

抽签 法 : 将 100 件 轴 编 号 为 1,2,…,100, 并 做 好 大 小 、 形 状 相同 的 号 签 ,分 别 写 上 这 
100 个 数 , 将 这 些 号 签 放 在 一 起 ,进行 均匀 搅拌 ,接着 连续 抽取 10 个 号 签 ,然后 测量 这 个 10 
个 号 签 对 应 的 轴 的 直径 。 

随机 数 表 法 : 将 100 件 轴 编号 为 00,01,02,…,99, 在 随机 数 表 中 选 定 一 个 起 始 位 置 , 如 
取 第 21 行 第 1 个 数 开始 ,选取 10 件 编号 分 为 68,34,30,13,70,55,74,77,40,44 的 轴 , 这 10 
件 即 为 所 要 抽取 的 样本 。 


2.2.3 分 层 采 样 


定义 2.3: 分 层 采样 又 称 分 类 抽样 或 类 型 抽样 。 将 总 体 划分 为 若干 个 同 质 层 ,再 在 各 层 
内 随机 抽样 或 机 械 抽样 ,分 层 抽 样 的 特点 是 将 科学 分 组 法 与 抽样 法 结合 在 一 起 ,分 组 减 小 了 
各 抽样 层 变 异性 的 影响 ,抽样 保证 了 所 抽取 的 样本 具有 足够 的 代表 性 。 

[52.3] 某 市 有 300 所 小 学 ,共有 240 000 名 学 生 , 这 些小 学 分 布 在 全 市 5 个 行政 
中 ,其 中 重点 小 学 有 30 所 ,一 般 小 学 有 240 所 , 较 差 的 小 学 有 30 所 。 现 在 要 从 全 市 小 学 生 
中 抽取 1200 名 学 生 进行 调查 ,以 了 解 全 市 小 学 生 的 学 习 情 况 。 

解 : 分 层 抽样 方案 如 下 。 

CD 因为 有 300 所 小 学 ,240 000 名 学 生 , 假 设 每 所 小 学 的 学 生 人 数 相同 ,所 以 每 所 小 学 
有 学 生 人 数 800 名 。 

(2) 又 因为 有 重点 小 学 30 所 ,一 般 小 学 240 所 , 较 差 小 学 30 所 ,所 以 重点 小 学 有 学 生 
人 数 24 000 名 ,一 般 小 学 有 学 生 人 数 192 000 名 , 较 差 小 学 有 学 生 人 数 24 000 名 。 

(3) 因为 要 从 240 000 名 学 生 中 抽取 1200 名 学 生 进行 调查 ,所 以 “1200 : 240 000— 
1: 200”, 即 每 200 名 学 生 中 抽取 1 名 学 生 进 行 调查 ,所 以 由 第 (2) 步 得 出 : 24 000 X1/200= 
120 名 ; 192 000X 1/200—960 名 ; 24 000X1/200=120 44; 然后 按照 简单 随机 抽样 的 方法 
分 别 抽取 相应 的 人 数 。 

(4) 综 上 所 述 , 要 从 240 000 名 学 生 中 抽取 1200 名 学 生 进行 调查 ,应 当 从 30 所 重点 小 
学 中 抽取 120 名 学 生 , 从 240 所 一 般 小 学 中 抽取 960 名 学 生 , 从 30 所 较 差 小 学 中 抽取 120 
名 学 生 , 共 计 1200 名 学 生 。 

[6512.4] 一 个 单位 的 职工 有 500 人 ,其 中 不 到 35 岁 的 有 125 人 ,35 一 49 岁 的 有 280 
人 ,50 岁 以 上 的 有 95 人。 为 了 了 解 这 个 单位 职工 与 身体 状况 有 关 的 某 项 指标 ,要 从 中 抽取 


区 














一 个 容量 为 100 的 样本 。 

fF: 由 于 职工 年 龄 与 这 项 指标 有 关 , 决 定 采 用 分 层 抽 样 方法 进行 抽取 。 因 为 样本 容量 
与 总 体 的 个 数 的 比 为 1: 5, 所 以 在 各 年 龄 段 抽 取 的 个 数 依次 为 125/5、280/5、95/5、 即 25、 
56,19. 





2.3 数据 清理 


2.3.1 填充 缺失 值 


很 多 的 数据 都 有 缺失 值 。 例 如 ,银行 房屋 贷款 信用 风险 评估 中 的 客户 数据 ,其 中 的 一 些 
属性 可 能 没有 记录 值 ,如 客户 的 家 庭 月 总 收入 。 填 充 丢 失 的 值 ,可 以 用 下 面 几 种 方法 。 

1. 忽略 元 组 

当 缺 少 类 标号 时 通常 这 样 做 (假定 挖掘 任务 涉及 分 类 )。 除 非 元 组 有 多 个 属性 缺少 值 ， 
否则 该 方法 不 是 很 有 效 , 当 每 个 属性 缺少 值 的 百分比 变化 很 大 时 , 它 的 性 能 特别 差 。 

2. 人 工 填写 缺失 值 

此 方法 很 费时 ,特别 是 当 数 据 集 很 大 、 缺 少 很 多 值 时 ,该 方法 可 能 不 具有 实际 的 可 操 
作 性 。 

3. 使 用 一 个 全 局 常量 填充 缺失 值 

将 缺失 的 属性 值 用 同一 个 常数 (如 Unknown) 替换 。 但 这 种 方法 因为 大 量 采 用 同一 个 
属性 值 可 能 会 误导 挖掘 程序 得 出 有 偏差 甚至 错误 的 结论 , 需 小 心 使 用 。 

4. 用 属性 的 均值 填充 缺失 值 

例如 ,已 知 重庆 市 某 银行 的 贷款 客户 的 平均 家 庭 月 总 收入 为 9000 元 , 则 使 用 该 值 蔡 换 
客户 收入 中 的 缺失 值 。 

5. 用 同类 样本 的 属性 均值 填充 缺失 值 

例如 ,将 银行 客户 按 信用 度 分 类 ,就 可 以 用 信用 度 相 同 的 贷款 客户 的 家 庭 月 总 收入 替换 
家 庭 月 总 收入 中 的 缺失 值 。 

6. 使 用 最 可 能 的 值 填充 缺失 值 

可 以 使 用 回归 、 贝 叶 斯 形式 化 的 基于 推理 的 工具 或 决策 树 归 纳 确 定 。 例 如 ,利用 数据 集 
中 其 他 客户 顾客 的 属性 ,可 以 构造 一 棵 决策 树 预 测 家 庭 月 总 收入 的 缺失 值 。 

需要 注意 的 是 ,在 某 些 情 况 下 缺失 值 并 不 意味 数据 有 错误 。 例 如 ,在 申请 信用 卡 时 ,可 
能 要 求 申请 人 提供 驾驶 执照 号 ,而 没有 驾驶 执照 的 申请 者 自然 使 该 字段 为 空 。 表 格 应 当 允 
许 填 表 人 使 用 诸如 “无 效 ” 等 值 ,软件 程序 也 可 以 用 来 发 现 其 他 空 值 ,如 “不 知道 “?” 或 “无 ”。 
理想 情况 下 ,每 个 属性 都 应 当 有 一 个 或 多 个 关于 空 值 条 件 的 规则 。 这 些 规则 可 以 说 明 是 否 
允许 空 值 , 并 且说 明 这 样 的 空 值 应 当 如 何 进行 处 理 或 转换 。 字 段 也 可 能 故意 留 下 空白 ,如 果 
它们 在 商务 处 理 的 最 后 一 步 未 提供 值 的 话 。 因 此 ,尽管 人 们 可 以 在 得 到 数据 后 尽 最 大 努力 
进行 数据 清理 ,但 数据 库 和 数据 输入 的 良好 设计 将 有 助 于 在 第 一 现场 最 小 化 缺失 值 或 错误 
的 数量 。 


2.3.2 光滑 噪声 数据 
噪声 (noise) 是 指 被 测量 变量 的 随机 误差 或 方差 。 给 定 一 个 数值 属性 ,如 Price, 如 何 才 
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能 “光滑 ”数据 去 掉 噪声 ? 常见 的 数据 光滑 技术 包含 如 下 几 种 。 

1. 分 箱 (binning) 

分 箱 方法 通过 考查 数据 的 “近邻 ”( 即 周围 的 值 ) 光 滑 有 序数 据 的 值 ,有 序 值 通常 分 布 到 
一 些 “ 桶 ?或 箱 中 。 由 于 分 箱 方法 考查 近邻 的 值 ,因此 用 来 进行 局 部 光滑 。 一 般 来 说 ,宽度 越 
大 ,光滑 效果 越 大 , 箱 也 可 以 是 等 宽 的 , 即 每 个 箱 值 的 区 间 范 围 是 个 常量 。 

【 例 2.5】 某 课程 成 绩 score 排序 后 的 数据 为 : 61. 66, 68,73,77,78,85,88,91。 将 上 
述 排序 的 数据 划分 为 等 深 (深度 为 3) 的 箱 ( 桶 ) ,如 下 所 示 。 

箱 1:61, 66. 68 

186 2: 73. 77. 78 

416 3:85. 88. 91 

采用 分 箱 平滑 技术 后 ,用 平均 值 平 滑 得 到 如 下 结果 。 

箱 1:65, 65, 65 

箱 2:76, 76. 76 

箱 3 88. 88. 88 

用 边界 值 平 滑 得 到 如 下 结果 。 

箱 1:61, 68. 68 

48 2: 73. 78. 78 

46 3:85. 85. 91 

2. 回归 

可 以 个 函数 (如 回归 函数 ) 进 行 数据 拟 合 来 达到 光滑 数据 的 目的 。 线 性 回归 涉及 找 
出 拟 合 两 个 属性 (或 变量 ) 的 “最 佳 ? 线 ,使 得 一 个 属性 可 以 用 来 预测 另 一 个 属性 。 多 元 线性 
可 归 是 线性 回归 的 扩展 ,其 中 涉及 的 属性 多 于 两 个 ,并 且 数 据 拟 合 到 一 个 多 维 曲面 。 

3. RA 
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视 为 离 群 点 。 许 多 数据 光滑 的 方法 也 是 涉及 离散 化 的 数据 归 约 方法 。 例 如 ,上 面 介 绍 的 分 
箱 技术 减少 了 每 个 属性 的 不 同 值 数量 。 对 于 基于 逻辑 的 数据 挖掘 方法 (如 决策 树 归 纳 ), 反 
复 地 对 排序 后 的 数据 进行 比较 ,这 充当 了 一 种 形式 的 数据 归 约 。 概 念 分 层 是 一 种 数据 离散 
化 形式 ,也 可 以 用 于 数据 光滑 。 


2.3.3 数据 清理 过 程 


数据 清理 过 程 包含 如 下 两 个 步骤 : 偏差 检测 和 偏差 纠正 。 

CD 偏差 检测 (discrepancy detection)。 发 现 噪 声 、 离 群 点 和 需要 考查 的 不 寻常 的 值 时 ， 
可 以 使 用 已 有 的 关于 数据 性 质 的 知识 。 这 种 知识 或 “关于 数据 的 数据 ” 称 作 元 数据 。 通 常 ， 
可 以 对 数据 做 以 下 考查 ,考查 每 个 数据 属性 的 定义 域 和 数据 类 型 .每 个 属性 可 接受 的 值 、 值 
的 长 度 范 围 ; 考查 是 否 所 有 的 值 都 落 在 期 望 的 值 域内 、 属 性 之 间 是 否 存在 已 知 的 依赖 ; 把 
握 数 据 趋势 和 识别 异常 ,例如 远离 给 定 属性 均值 超过 两 个 标准 差 的 值 可 能 标记 为 潜在 的 离 
群 点 。 另 一 种 错误 是 源 编码 使 用 的 不 一 致 问题 和 数据 表示 的 不 一 致 问题 (如 日 期 *2009/09/ 
25” 和 “25/09/2009”) 。 而 字段 过 载 (field overloading) 是 另 一 类 错误 源 。 考 查 数 据 还 要 遵 
循 唯 一 性 规则 .连续 性 规则 和 空 值 规则 。 可 以 使 用 其 他 外 部 材料 人 工地 加 以 更 正 某 些 数据 


















































不 一 致 。 如 数据 输入 时 的 错误 可 以 使 用 纸 上 的 记录 加 以 更 正 , 但 大 部 分 错误 需要 数据 变换 。 
(2) 偏差 纠正 (discrepancy correction) 。 也 就 是 说 ,一 旦 发 现 偏差 ,通常 我 们 需要 定义 

并 使 用 一 系列 变换 纠正 它们 。 商 业 工 具 可 以 支持 数据 变换 步骤 ,但 这 些 工具 只 支持 有 限 的 

变换 ,因此 ,人 们 常常 可 能 选择 为 数据 清理 过 程 的 这 一 步 编 写 定制 的 程序 。 

偏差 检测 和 纠正 偏差 这 两 步 过 程 迭 代 执 行 。 随 着 人 们 对 数据 的 了 解 增 加 ,重要 的 是 要 

不 断 地 更 新 元 数据 以 反映 这 种 知识 ,这 有 助 于 加 快 对 相同 数据 存储 的 未 来 版 本 的 数据 清理 

速度 。 





2.4 数据 集成 


2.4.1 数据 集成 简介 


数据 分 析 任 务 大 多 涉及 数据 集成 。 数 据 集成 需要 合并 多 个 数据 源 中 的 数据 ,存放 在 一 
个 一 致 的 数据 存储 (如 数据 仓库 ) 中 ,这 些 数据 源 可 能 包括 多 个 数据 库 、 数 据 立 方 体 或 一 般 文 
件 ,在 数据 集成 时 ,有 许多 问题 需要 考虑 。 

1. 模式 集成 和 对 象 匹 配 问题 

来 自 多 个 信息 源 的 现实 世界 的 等 价 实体 的 匹配 涉及 实体 识别 问题 。 例 如 ,如 何 判断 一 
个 数据 库 中 的 Customer. ID 与 另 一 个 数据 库 中 的 Cust_Number 是 否 是 相同 的 属性 。 每 个 
属性 的 元 数据 可 以 用 来 帮助 避免 模式 集成 的 错误 ,元 数据 还 可 以 用 来 帮助 变换 数据 。 

2. 元 余 问 题 

一 个 属性 如 果 能 由 另 一 个 或 男 一 组 属性 “导出 ”, 那 么 该 属性 是 宛 余 的 。 另 外 ,属性 的 不 
一 臻 也 可 能 导致 结果 数据 集中 的 元 余 。 有 些 元 余 可 以 被 相关 分 析 方法 检测 到 。 假 设 给 定 两 
个 属性 ,通过 这 种 相关 分 析 方法 ,可 以 根据 可 用 的 数据 来 度量 一 个 属性 能 在 多 大 程度 上 列 涵 
另 一 个 属性 。 对 于 数值 属性 ,通过 计算 属性 A 和 B 之 间 的 相关 系数 估计 这 两 个 属性 的 相关 
FÉ raso 即 
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其 中 ,N 是 元 组 个 数 ,a; Mb: 分别 是 元 组 i 中 A 和 B 的 值 ,A 和 B 分 别 是 A 和 B 的 均值 ,oa 
N 

和 oa 分 别 是 A AB 的 标准 差 ,而 aub; 是 AB 叉 积 的 和 ( 即 ,对 于 每 个 元 组 ,A 的 值 乘 以 
i=1 


该 元 组 B 的 值 )。 注 意 : 一 1] 委 mas 委 十 1。 如 果 ra,s 大 于 0, 则 A 和 B 是 正 相 关 的 ,该 值 越 
大 ,相关 性 越 强 ( 即 每 个 属性 蕴涵 另 一 个 的 可 能 性 越 大 )。 因 此 ,一 个 较 高 的 ra.s 值 表明 A 
(或 B) 可 以 作为 匈 余 而 被 去 掉 。 如 果 结 果 值 等 于 0, 则 A AB 是 独立 的 ,不 存在 相关 ; 如 果 
结果 值 小 于 0, 则 A 和 B 是 负 相 关 的 ,一 个 值 随 另 一 个 的 减少 而 增加 。 这 意味 每 一 个 属性 
都 阻止 男 一 个 属性 的 出 现 。 

注意 : 相关 并 不 意味 因果 关系 。 也 就 是 说 ,如 果 A 和 B 是 相关 的 ,这 并 不 意味 A 导致 
BRB 导致 A。 对 于 分 类 (离散 ) 数 据 .两 个 属性 A MB 之 间 的 相关 联系 可 以 通过 X (RG) 
检验 发 现 。 
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BA Fic 个 不 同 值 al,az,…,ac; B 有 rr 个 不 同 值 61,6:,…,b:。A 和 B 描述 的 数据 元 
组 可 以 用 一 个 相依 表 显 示 , 其 中 A 的 c 个 值 构成 列 ,B 的 -~ 个 值 构成 行 。 令 (Ai;,Bj;) 表 示 属 
TE A 取 值 a;、 属 性 B BUE b; 的 事件 , 即 (A 二 a;,B==b;)。 每 个 可 能 的 (A;,B;) 联 合 事件 都 在 


表 中 有 自己 的 单元 (或 位 置 ) X 值 (又 称 皮尔 逊 X. 统计 量 ) 可 以 用 下 式 计算 。 
Y= 入》 ww (2-2) 


i=1 j=1 ei 
其 中 ,05; 是 联合 事件 (A;,Bj) 的 观测 频 度 ( 即 实际 计数 ), 而 6 是 (Ai,B;) 的 期 望 频 度 ,可 以 用 
FAH. 
cCA = ai) X cCB = bj) 
N 

其 中 ,c(A=a) 表 示 A 具有 值 w 的 元 组 个 数 ,而 CB — 0,0 J& BAA o; 的 元 组 个 数 。 
式 (2-2) 中 的 和 在 所 有 ex c 个 单元 上 计算 。 对 Xx 值 贡献 最 大 的 单元 是 其 实际 计数 与 期 户 
计数 很 不 相同 的 单元 。 

X 统计 检验 假设 A 和 B 是 独立 的 。 检 验 基 于 显著 水 平 ,具有 (7 一 1) X (c 一 1) 自 由 度 。 
如 果 可 以 拒绝 该 假设 , 则 可 说 A 和 B. 是 统计 相关 的 或 关联 的 。 

除了 检测 属性 间 的 宛 余 外 ,还 应 当 在 元 组 级 检测 重复 (例如 ,对 于 给 定 的 唯一 数据 实体 ， 
存在 两 个 或 多 个 相同 的 元 组 )。 去 规范 化 表 的 使 用 (这 样 做 通常 是 通过 避免 连接 来 改善 性 
能 ) 也 可 能 导致 数据 元 余 。 不 一 致 通常 出 现在 各 种 不 同 的 副本 之 间 , 由 于 不 正确 的 数据 输 
入 ,或 者 由 于 更 新 了 数据 的 部 分 出 现 , 但 未 更 新 所 有 的 出 现 , 例 如 ,如 果 订 单数 据 库 包 含 订货 
人 的 姓名 和 地 址 属性 ,而 不 是 这 些 信息 在 订货 人 数据 库 中 的 码 , 则 差异 就 可 能 出 现 ,如 同一 
订货 人 的 名 字 可 能 以 不 同 的 地 址 出 现在 订单 数据 库 中 。 

3. 数据 值 冲突 的 检测 与 处 理 

例如 ,对 于 现实 世界 的 同一 实体 ,来 自 不 同 数据 源 的 属性 值 可 能 不 同 。 这 可 能 是 因为 表 
示 、 比 例 或 编码 不 同 。 例 如 ,重量 属性 可 能 在 一 个 系统 中 以 公制 单位 存放 ,而 在 另 一 个 系统 
中 以 英制 单位 存放 。 对 于 连锁 旅馆 ,不 同城 市 的 房价 不 仅 可 能 涉及 不 同 的 货币 ,而 且 可 能 涉 
及 不 同 的 服务 (如 免费 早餐 ) 和 税 。 

在 一 个 系统 中 记录 的 属性 的 抽象 层 可 能 比 另 一 个 系统 中 “相同 的 ”属性 低 。 数 据 集成 
时 ,将 一 个 数据 库 的 属性 与 另 一 个 匹配 ,要 考虑 数据 的 结构 用 来 保证 原 系统 中 的 属性 函数 依 
赖 和 参照 约束 与 目标 系统 中 的 匹配 。 数 据 语 义 的 异 构 和 结构 对 数据 集成 提出 了 巨大 挑战 ， 
由 多 个 数据 源 小 心地 集成 数据 能 够 帮助 降低 和 避免 结果 数据 集中 的 元 余 和 不 一 致 ,从 而 提 
高 其 后 挖掘 过 程 的 准确 率 和 速度 。 


2.4.2 常用 数据 集成 方法 


数据 集成 是 把 不 同 来 源 、 格 式 、 特 点 性 质 的 数据 在 逻辑 上 或 物理 上 有 机 地 集中 ,从 而 为 
企业 提供 全 面 的 数据 共享 。 在 企业 数据 集成 领域 ,已 经 有 了 很 多 成 熟 的 框架 可 以 利用 。 通 
常 采 用 联邦 式 、 基 于 中 间 件 模型 和 数据 仓库 等 方法 构造 集成 的 系统 ,这 些 技术 在 不 同 的 着 重 
点 和 应 用 上 解决 数据 共享 和 为 企业 提供 决策 支持 。 本 节 将 对 这 几 种 数据 集成 模型 做 一 个 基 
本 的 分 析 。 
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1. 联邦 数据 库 系 统 

联邦 数据 库 系 统 (Federated Database System,FDBS) 由 半 自 治 数据 库 系 统 构成 ,相互 
之 间 分 享 数据 ,联邦 各 数据 源 之 间 相 互 提 供 访问 接口 ,同时 联邦 数据 库 系统 可 以 是 集中 数据 
库 系 统 或 分 布 式 数据 库 系 统 及 其 他 联邦 式 系 统 。 在 这 种 模式 下 ,又 分 为 紧 耦 合 和 松 耦 合 两 
种 情况 , 紧 耦 合 提供 统一 的 访问 模式 ,一般 是 静态 的 ,在 增加 数据 源 上 比较 困难 ;而 松 耦 合 
则 不 提供 统一 的 接口 ,但 可 以 通过 统一 的 语言 访问 数据 源 , 其 中 核心 的 是 必须 解决 所 有 数据 
源 语义 上 的 问题 。 

2. 中 间 件 模式 

中 间 件 模式 通过 统一 的 全 局 数据 模型 来 访问 异 构 的 数据 库 、 遗 留 系统 、Web 资源 等 。 
中 间 件 位 于 异 构 数 据 源 系 统 (数据 层 ) 和 应 用 程序 (应 用 层 ) 之 间 , 向 下 协调 各 数据 源 系统 ， 
向 上 为 访问 集成 数据 的 应 用 提供 统一 数据 模式 和 数据 访问 的 通用 接口 。 各 数据 源 的 应 用 仍 
然 完成 它们 的 任务 ,中 间 件 系统 则 主要 集中 为 异 构 数 据 源 提供 一 个 高 层次 检索 服务 。 

中 间 件 模式 是 比较 流行 的 数据 集成 方法 , 它 通过 在 中 间 层 提供 一 个 统一 的 数据 逻辑 视 
图 来 隐藏 底层 的 数据 细节 ,使 得 用 户 可 以 把 集成 数据 源 看 为 一 个 统一 的 整体 。 这 种 模型 下 
的 关键 问题 是 如 何 构造 这 个 逻辑 视图 并 使 得 不 同 数 据 源 之 间 能 映射 到 这 个 中 间 层 。 

3. 数据 仓库 

数据 仓库 是 在 企业 管理 和 决策 中 面向 主题 的 、 集 成 的 ,与 时 间 相 关 的 和 不 可 修改 的 数据 
集合 。 其 中 ,数据 被 归 类 为 广义 的 ,功能 上 独立 的 ,没有 重合 的 主题 。 这 几 种 方法 在 一 定 程 
度 上 解决 了 应 用 之 间 的 数据 共享 和 互通 的 问题 ,但 也 存在 以 下 的 异同 : 联邦 数据 库 系 统 主 
要 面向 多 个 数据 库 系 统 的 集成 ,其 中 数据 源 有 可 能 要 映射 到 每 一 个 数据 模式 , 当 集成 的 系统 
很 大 时 ,对 实际 开发 将 带 来 巨大 的 困难 。 

数据 仓库 技术 则 在 另外 一 个 层面 上 表达 数据 之 间 的 共享 , 它 主 要 是 为 了 针对 企业 某 个 
应 用 领域 提出 的 一 种 数据 集成 方法 ,也 就 是 上 面 所 提 到 的 面向 主题 并 为 企业 提供 数据 挖掘 
和 决策 支持 的 系统 。 





2.5 数据 变换 


2.5.1 数据 变换 简介 


数据 变换 的 目的 是 将 数据 转换 或 统一 成 适合 于 挖掘 的 形式 ,数据 变换 主要 涉及 如 下 
内 容 。 

1. 光滑 

即 去 掉 数据 中 的 噪声 ,这 种 技术 包括 分 箱 、 回 归 和 聚 类 等 。 

2. RE 

对 数据 进行 汇总 或 聚集 。 例 如 ,可 以 聚集 日 销售 数据 ,计算 月 和 年 销售 量 。 通 常 , 这 一 
步 用 来 为 多 粒度 数据 分 析 构 造 数 据 立方 体 。 

3. 数据 泛 化 

使 用 概念 分 层 , 用 高 层 概念 蔡 换 低层 或 “原始 ”数据 。 例 如 ,对 于 年 龄 这 种 数值 属性 ,“ 原 
始 数据 ?可 能 包含 20,30.40,50,60,70 等 ,可 以 将 上 述 数 据 映 射 到 较 高 层 的 概念 ,如 青年 、 中 
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年 和 老年 。 

4. 数据 规范 化 

将 属性 数据 按 比例 缩放 ,使 之 落 入 一 个 小 的 特定 区 间 , 如 一 1.0 一 1. 0 8 0.0—1.0, XX 
范 化 可 以 消除 数值 型 属性 因 大 小 不 一 而 造成 的 挖掘 结果 偏差 。 对 于 分 类 算法 ,如 涉及 神经 
网 络 的 算法 或 诸如 最 临近 分 类 和 聚 类 的 距离 度量 分 类 算法 ,规范 化 特别 有 用 。 如 果 使 用 神 
经 网 络 后 向 传播 (Back Propagation,BP) 算 法 进行 分 类 挖掘 ,训练 样本 的 规范 化 能 够 提高 学 
习 的 速度 。 

5. 属性 构造 (或 特征 构造 ) 

由 己 有 的 属性 构造 和 添加 新 的 属性 ,以 帮助 挖掘 更 深层 次 的 模式 知识 ,提高 挖掘 结果 的 
准确 性 。 例 如 ,可 根据 属性 Height 和 Width 添加 属性 Area。 属 性 构造 可 以 减少 使 用 判定 
树 算法 分 类 的 分 裂 问题 。 通 过 组 合 属性 ,可 以 帮助 发 现 所 遗漏 的 属性 间 的 相互 关系 ,而 这 对 
于 数据 挖掘 是 十 分 重要 的 。 


2.5.2 数据 规范 化 


数据 规范 化 处 理 是 数据 挖掘 的 一 项 基础 工作 ,不 同 评价 指标 往往 具有 不 同 的 量 纲 和 量 
纲 单位 ,这 样 的 情况 会 影响 到 数据 分 析 的 结果 。 为 了 消除 指标 之 间 的 量 纲 影 响 , 需要 进行 数 
据 标准 化 处 理 ,以 解决 数据 指标 之 间 的 可 比 性 。 原 始 数 据 经 过 数据 标准 化 处 理 后 ,各 指标 处 
于 同一 数量 级 ,适合 进行 综合 对 比 评价 。 

规范 化 就 是 要 把 需要 处 理 的 数据 经 过 处 理 后 (通过 某 种 算法 ) 限 制 在 所 需要 的 一 定 范围 
内 。 首 先 规范 化 是 为 了 后 面 数据 处 理 的 方便 ,其 次 是 保证 程序 运行 时 收敛 加 快 。 规 范 化 的 
具体 作用 是 归纳 统一 样本 的 统计 分 布 性 。 规 范 化 在 0—1 之 间 是 统计 的 概率 分 布 ,规范 化 在 
某 个 区 间 上 是 统计 的 坐标 分 布 。 有 许多 数据 规范 化 的 方法 ,常用 的 有 3 种 , 即 最 小 -最 大 规 
范 化 .=-score 规范 化 和 按 小 数 定 标 规 范 。 

1. 最 小 -最 大 规范 化 

假定 ma 和 Ma 分 别 为 属性 A 的 最 小 值 和 最 大 值 。 最 小 -最 大 规范 化 通过 下 列 计 算 ， 


























, U— ma 
"C MA—ma 
将 A 的 值 v 映射 到 区 间 [new_ma,new_Ma] 中 vv。 
最 小 -最 大 规范 化 对 原始 数据 进行 线性 变换 ,保持 原始 数据 值 之 间 的 联系 。 如 果 今 后 
的 输入 落 在 A 的 原始 数据 值 域 之 外 ,该 方法 将 面临 越界? 错误。 
[52.61 假定 某 属性 的 最 小 与 最 大 值 分 别 为 8000 元 和 14 000 元 。 要 将 其 映射 到 区 
间 [0.0,1.0]。 按 照 最 小 -最 大 规范 化 方法 对 属性 值 进行 缩放 , 则 属性 值 12 600 元 将 变 为 


12 600 一 8000 
14 000 一 8000 


2. z-score 规范 化 ( 零 均 值 规范 化 ) 
把 属性 A 的 值 v 基于 A 的 均值 和 标准 差 规 范 化 为 v ,由 下 式 计算 : 
v = (v—A)/oa (2-5) 
其 中 ,A 和 ca 分 别 为 属性 A 的 均值 和 标准 差 。 当 属性 A 的 实际 最 大 和 最 小 值 未 知 , 或 离 群 
点 改变 了 最 大 -最 小 规范 化 时 ,该 方法 是 有 用 的 。 


(new. M4 — new_ma) + new ma (2-4) 
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(1. 0—0. 0) —0. 767 


【 例 2.7】 假定 属性 平均 家 庭 月 总 收入 的 均值 和 标准 差分 别 为 9000 元 和 2400 元 , 值 
10 600 元 使 用 z-score 规范 化 转换 为 


12 600—9000 . 
2400 
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3. 小 数 定 标 规范 化 

通过 移动 属性 A 的 小 数 点 位 置 进行 规范 化 。 小 数 点 的 移动 位 数 依赖 于 A 的 最 大 绝对 
值 。A 的 值 vw 规范 化 为 v ,由 下 式 计算 : 

v = v/10’ (2-6) 
其 中 ,j 是 使 得 max(|v 1) 一 ! 的 最 小 整数 。 

[52.8] 假定 A 的 取 值 是 一 975 一 923。A 的 最 大 绝对 值 为 975。 使 用 小 数 定 标 规 
范 化 ,用 1000( 即 j 一 3) 除 以 每 个 值 ,这 样 , 一 975 规范 化 为 一 0. 975, 而 923 被 规范 化 为 
0.923, 

规范 化 将 原来 的 数据 改变 ,特别 是 上 面 的 后 两 种 方法 。 有 必要 保留 规范 化 参数 (如 均值 
和 标准 差 ,如 果 使 用 *-score 规范 化 ) ,以 便 将 来 的 数据 可 以 用 一 致 的 方式 规范 化 。 


2.6 数据 归 约 


对 海量 数据 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 时 间 , 使 得 这 种 分 析 不 具有 可 操作 
性 。 数 据 归 约 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 , 它 比 原 数据 小 得 多 ,但 仍 接近 保持 原 数 
据 的 完整 性 。 这 样 ,对 归 约 后 的 数据 集 挖掘 将 更 有 效 , 并 产生 相同 (或 几乎 相同 ) 的 分 析 结 
果 。 用 于 数据 归 约 的 计算 时 间 不 应 当 超过 或 “抵消 ?对 归 约 数据 挖掘 节省 的 时 间 。 常 见 的 数 
据 归 约 的 方法 包括 数据 立方 体 聚 集 、 维 归 约 、 数 据 压 缩 、 数 值 归 约 以 及 数据 离散 化 与 概念 分 
层 等 ,下 面 逐 一 进行 介绍 。 


2.6.1 数据 立方 体 聚 集 


数据 立方 体 聚 集 主要 是 用 于 构造 数据 立方 体 , 数 据 立方 体 存储 多 维 聚 集 信息 。 每 个 单 
元 存放 一 个 聚集 值 , 对 应 于 多 维 空间 的 一 个 数据 点 ,每 个 属性 可 能 存在 概念 分 层 ,允许 在 多 
个 抽象 层 进行 数据 分 析 。 数 据 立方 体 提供 对 预计 算 的 汇总 数据 进行 快速 访问 ,因此 ,适合 联 
机 数据 分 析 处 理 和 数据 挖掘 。 

在 最 低 抽 象 层 创建 的 立方 体 称 为 基本 方 体 (base cuboid) 。 基 本 方 体 应 当 对 应 于 感 兴趣 
的 个 体 实体 , 即 最 低层 应 当 是 对 于 分 析 可 用 的 或 有 用 的 。 最 高 层 抽象 的 立方 体 称 为 顶点 方 
f% Capex cuboid) 。 对 不 同 抽象 层 创建 的 数据 立方 体 称 为 方 体 (cuboid) ,因此 数据 立方 体 可 
以 看 作 方 体 的 格 (lattice of cuboids) 。 每 个 较 高 层 抽 象 将 进一步 地 减少 结果 数据 的 规模 。 
当 回 答 数据 挖掘 查询 时 ,应 当 使 用 与 给 定 任 务 相关 的 最 小 可 用 方 体 。 


2.6.2 维 归 约 


用 于 分 析 的 数据 集 可 能 包含 数 以 百 计 的 属性 ,其 中 大 部 分 属性 与 挖掘 任务 不 相关 或 元 
余 , 例 如 ,分 析 银 行 客户 的 信用 度 时 ,诸如 客户 的 电话 号 码 、 家 庭 住址 等 属性 就 与 该 数据 挖掘 
任务 不 相关 ,或 者 说 是 元 余 的 。 维 归 约 通过 减少 不 相关 的 属性 (或 维 ) 达 到 减少 数据 集 规模 
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的 目的 ,通常 使 用 属性 子 集 选择 方法 找 出 最 小 属性 集 , 使 得 数据 类 的 概率 分 布 尽 可 能 地 接近 
原始 属性 集 的 概率 分 布 。 在 归 约 后 的 属性 集 上 进行 数据 挖掘 ,不 仅 减少 了 出 现在 发 现 模式 
上 的 属性 的 数目 ,而 且 使 得 模式 更 容易 理解 。 属 性 子 集 选择 的 基本 启发 式 方法 包括 以 下 
几 种 。 

1. 逐步 向 前 选择 

该 过 程 由 空 届 性 集 作为 归 约 集 开始 ,确定 原 属性 集中 最 好 的 属性 ,并 将 它 添加 到 归 约 集 
中 。 在 其 后 的 每 一 次 迭代 步 , 将 剩 下 的 原 属性 集中 最 好 的 属性 添加 到 该 集合 中 。 

2. 逐步 向 后 删除 

该 过 程 由 整个 属性 集 开 始 。 在 每 一 步 ,删除 尚 在 属性 集中 最 差 的 属性 。 

3. 向 前 选择 和 向 后 删除 的 结合 

可 以 将 逐步 向 前 选择 和 向 后 删除 方法 结合 在 一 起 ,每 一 步 选择 一 个 最 好 的 属性 ,并 在 剩 
余 属 性 中 删除 一 个 最 差 的 属性 。 

4. 决策 树 归纳 

决策 树 算 法 最 初 是 用 于 分 类 的 。 决 策 树 归 纳 构造 一 个 类 似 于 流程 图 的 结构 ,其 中 每 个 
内 部 ( 非 树 叶 ) 结 点 表示 一 个 属性 的 测试 ,每 个 分 支 对 应 于 测试 的 一 个 输出 ; 每 个 外 部 ( 树 
叶 ) 结 点 表示 一 个 类 预测 。 在 每 个 结 点 ,算法 选择 “最 好 ”的 属性 ,将 数据 划分 成 类 。 当 决策 
树 归 纳 用 于 属性 子 集 选择 时 ,由 给 定 的 数据 构造 决策 树 ,不 出 现在 树 中 的 所 有 属性 假定 是 不 
相关 的 ,出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 ,方法 的 结束 标准 可 以 不 同 , 该 过 程 可 以 
使 用 一 个 度量 闵 值 来 决定 何 时 停止 属性 选择 过 程 。 


2.6.3 数据 压缩 


数据 压缩 就 是 使 用 数据 编码 或 变换 以 便 将 原始 数据 集合 压缩 成 一 个 较 小 的 数据 集合 。 
可 以 不 丢失 任何 信息 地 还 原 数据 的 压缩 称 为 无 损 压 缩 , 构 造 原 始 数据 的 近似 表示 的 压缩 称 
为 有 损 压缩 。 一 般 而 言 , 有 损 压缩 的 压缩 比 要 比 无 损 压 缩 的 压缩 比 高 ,两 种 有 效 的 有 损 的 维 
归 约 方法 是 小 波 变换 和 主 成 分 分 析 。 

l. 小 波 变 换 

离散 小 波 变换 (Discrete Wavelet Transform,DWT) 是 一 种 线性 信号 处 理 技术 , 当 用 于 
数据 向 量 X 时 ,将 它 变换 成 数值 上 不 同 的 小 波 系数 向 量 X ,两 个 向 量具 有 相同 的 长 度 。 当 
这 种 技术 用 于 数据 归 约 时 ,每 个 元 组 看 作 一 个 n 维 数据 向 量 半 == (zi ,xs，…,x,) ,用 来 描述 
nn 个 数据 库 属性 在 元 组 上 的 n 个 测量 值 。 小 波 变换 后 的 数据 可 以 截 短 , 仅 存 放 一 小 部 分 最 
强 的 小 波 系数 ,就 能 保留 近似 的 压缩 数据 。 

例如 ,保留 大 于 用 户 设 定 的 某 个 阔 值 的 所 有 小 波 系数 ,其 他 系数 置 为 0。 这样, 结果 数 
据 表 示 非 常 稀疏 ,使 得 如 果 在 小 波 空 间 进行 计算 ,利用 数据 稀疏 特点 的 操作 计算 得 非常 快 。 
该 技术 也 能 用 于 消除 噪声 ,而 不 会 光滑 掉 数 据 的 主要 特征 ,使 得 它们 也 能 有 效 地 用 于 数据 清 
理 。 给 定 一 组 系数 ,使 用 所 用 的 DWT 的 道 , 可 以 构造 原 数 据 的 近似 。 

DWT 与 离散 傅 里 叶 变 换 (Discrete Fourier Transform,.DFT) 有 密切 关系 .DFT 是 一 种 
涉及 正弦 和 余弦 的 信号 处 理 技 术 。 一 般 地 说 ,DWT 是 一 种 更 好 的 有 损 压缩 算法 ,也 就 是 
说 ,对 于 给 定 的 数据 向 量 , 如 果 DWT 和 DFT 保留 相同 数目 的 系数 ,DWT 将 提供 原 数 据 的 
更 准确 的 近似 。 因 此 ,对 于 等 价 的 近似 ,DWT 比 DFT 需要 的 空间 小 ,不 像 DFT, 小 波 空 间 
























































局 部 性 相当 好 ,有 助 于 保留 局 部 细节 。 

应 用 离散 小 波 变换 的 一 般 过 程 是 使 用 一 种 分 层 金字 塔 算法 (pyramid algorithm) , 它 在 
每 次 迭代 时 将 数据 减 半 , 因 此 计算 速度 很 快 。 可 以 将 矩阵 乘法 用 于 输入 数据 ,以 得 到 小 波 系 
数 ,所 用 的 和 矩阵 依赖 于 给 定 的 DWT。 矩 阵 必须 是 标准 正 交 的 , 即 列 是 单位 向 量 并 相互 正 
交 , 使 得 矩阵 的 逆 是 它 的 转 置 ,这 种 性 质 允 许 由 光滑 和 光滑 - 差 数 据 集 重 构 数据 。 通 过 将 矩阵 
因子 分 解 成 几 个 稀 朴 矩阵 ,对 于 长 度 为 的 输入 向 量 ，“ 快 速 DWT” 算 法 的 复杂 度 为 O). 

小 波 变换 可 以 用 于 多 维 数据 ,如 数据 立方 体 。 可 以 按 以 下 方法 做 : 首先 将 变换 用 于 第 
一 个 维 , 然 后 第 二 个 ,如 此 下 去 。 计 算 复杂 性 关于 立方 体 中 单元 的 个 数 是 线性 的 。 对 于 稀 疏 
或 倾斜 数据 和 上 有 具有 有 序 属性 的 数据 ,小 波 变换 给 出 很 好 的 结果 。 据 报道 ,小 波 变换 的 有 损 压 
缩 比 当前 的 商业 标准 JPEG 压缩 好 。 小 波 变换 有 许多 实际 应 用 ,包括 指纹 图 像 压缩 ,计算 机 
视觉 时间 序 列 数据 分 析 和 数据 清理 。 

2. 主 成 分 分 析 

主 成 分 分 析 (Principal Components Analysis, PCA) 又 称 Karhunen-Loeve(K-L) 方 法 。 
该 方法 搜索 个 最 能 代表 数据 的 n 维 正 交 向 量 ,其 中 kn, 这 样 原来 的 数据 投影 到 一 个 小 
得 多 的 空间 ,导致 维度 归 约 。PCA 通过 创建 一 个 蔡 换 的 、 更 小 的 变量 集 * 组 合 ” 属 性 的 基本 
要 素 , 原 数据 可 以 投影 到 该 较 小 的 集合 中 。PCA 常常 揭示 先前 未 曾 察 觉 的 联系 ,并 因此 允 
许 解 释 不 寻常 的 结果 ,其 基本 过 程 如 下 。 

CD 对 输入 数据 规范 化 ,使 得 每 个 属性 都 落 入 相同 的 区 间 。 此 步 有 助 于 确保 具有 较 大 
定义 域 的 属性 不 会 支配 具有 较 小 定义 域 的 属性 。 

(2) PCA 计算 k 个 标准 正 交 向 量 , 作 为 规范 化 输入 数据 的 基 。 这 些 是 单位 向 量 , 每 一 个 
方向 都 垂直 于 另 一 个 ,这 些 向 量 称 为 主 成 分 ,输入 数据 是 主 成 分 的 线性 组 合 。 

(3) 对 主 成 分 按 * 重 要 性 ?或 强度 降序 排列 。 主 成 分 基本 上 充当 数据 的 新 坐标 轴 , 提供 
关于 方差 的 重要 信息 。 也 就 是 说 ,对 坐标 轴 进 行 排序 ,使 得 第 一 个 坐标 轴 显 示 数 据 的 最 大 方 
差 ,第 二 个 显示 次 大 方差 ,如 此 下 去 。 

(4) 主 成 分 根据 “重要 性 ”降序 排列 , 则 可 通过 去 掉 较 弱 的 成 分 ( 即 方差 较 小 ) 来 归 约 数 
据 的 规模 ,使 用 最 强 的 主 成 分 ,应 当 能 够 重 构 原 数据 的 很 好 的 近似 。 

PCA 计算 开销 低 ,可 以 用 于 有 序 和 无 序 的 属性 ,并 且 可 以 处 理 稀 疏 和 倾斜 数据 ,多 于 
二 维 的 多 维 数据 可 以 通过 将 问题 归 约 为 二 维 问 题 处 理 。 主 成 分 可 以 用 作 多 元 回归 和 聚 
类 分 析 的 输入 ,与 小 波 变换 相 比 ,PCA 能 够 更 好 地 处 理 稀疏 数据 ,而 小 波 变换 更 适合 高 维 
数据 。 


2.6.4 数值 归 约 


数值 归 约 技术 指 的 是 选择 蔡 代 的 “ 较 小 的 "数据 表示 形式 减少 数据 量 。 常 用 的 数值 归 
约 技术 如 下 。 

l. 回归 和 对 数 线性 模型 
归 和 对 数 线性 模型 可 以 用 来 近似 给 定 的 数据 ,在 (简单 ) 线 性 回归 中 ,对 数据 建 模 使 之 
拟 合 到 一 条 直线 。 例 如 ,可 以 用 以 下 公式 ,将 随机 变量 y( 称 作 响 应 变量 ) 建 模 为 男 一 随机 变 
TE xz( 称 为 预测 变量 ) 的 线性 函数 y= 二 wz 十 b, 其 中 假定 y 的 方差 是 常量 。 

在 数据 挖掘 中 ,z 和 y 是 数值 数据 库 属性 。 系 数 w 和 4( 称 作 回归 系数 ) 分 别 为 直线 的 
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斜率 和 YY 轴 截 距 。 系 数 可 以 用 最 小 二 乘 方法 求解 , 它 最 小 化 分 离 数据 的 实际 直线 与 直线 估 
计 之 间 的 误差 。 多 元 线性 回归 是 (简单 ) 线 性 回归 的 扩充 ,允许 响应 变量 y 建 模 为 两 个 或 多 
个 预测 变量 的 线性 函数 。 

对 数 线性 模型 近似 离散 的 多 维 概率 分 布 。 给 定 n 维 元 组 的 集合 ,可 以 把 每 个 元 组 看 
作 n 维 空间 的 点 。 可 以 使 用 对 数 线性 模型 基于 维 组 合 的 一 个 较 小 子 集 , 估计 离 散 化 的 属 
性 集 的 多 维 空间 中 每 个 点 的 概率 ,这 使 得 高 维 数据 空间 可 以 由 较 低 维 空间 构造 。 因 此 ， 
对 数 线性 模型 也 可 以 用 于 维 归 约 (由 于 低 维 空间 的 点 通常 比 原来 的 数据 点 占据 较 少 的 空 
间 ) 和 数据 光滑 (因为 与 较 高 维 空间 的 估计 相 比 , 较 低 维 空间 的 聚集 估计 较 少 受 抽样 方差 
的 影响 )。 
回归 和 对 数 线性 模型 都 可 以 用 于 稀疏 数据 ,尽管 它们 的 应 用 可 能 是 受 限 制 的 。 虽 然 两 
种 方法 都 可 以 处 理 倾斜 数据 ,但 是 回归 方法 更 好 。 当 用 于 高 维 数据 时 ,回归 可 能 是 计算 密集 
的 ,而 对 数 线性 模型 表现 出 很 好 的 可 伸缩 性 ,可 以 扩展 到 十 维 左右 。 

2. 直方 图 

直方 图 使 用 分 箱 近似 数据 分 布 。 属 性 A 的 直方 图 将 A 的 数据 分 布 划分 为 不 相交 的 子 
集 或 桶 。 如 果 每 个 桶 只 代表 单个 属性 值 频率 对 , 则 称 为 单 桶 。 通 常 , 桶 表示 给 定 属性 的 一 个 
连续 区 间 。 确 定 桶 和 属性 值 的 划分 规则 如 下 。 

CD 等 宽 : 在 等 宽 直 方 图 中 ,每 个 桶 的 宽度 区 间 是 一 致 的 。 

(2) 等 频 (或 等 深 ): 在 等 频 直方 图 中 创建 桶 ,使 得 每 个 桶 的 频率 粗略 地 为 常数 ( 即 每 个 
桶 大 致 包含 相同 个 数 的 邻近 数据 样本 )。 

(3) V 最 优 : 给 定 桶 的 个 数 ,对 于 所 有 可 能 的 直方 图 , 则 V 最 优 直 方 图 是 具有 最 小 方差 
的 直方 图 ,直方 图 的 方差 是 每 个 桶 代表 的 原来 值 的 加 权 和 ,其 中 权 等 于 桶 中 值 的 个 数 。 

(4) MaxDiff( 最 大 差 ); 在 MaxDiff 直方 图 中 ,考虑 每 对 相 邻 值 之 问 的 差 , 桶 的 边界 是 
具有 8 一 1 个 最 大 差 的 对 ,其 中 B 是 用 户 指定 的 桶 数 。 

V 最 优 和 MaxDiff 直方 图 看 来 是 最 准确 和 最 实用 的 ,对 于 近似 稀疏 和 稠密 数据 的 高 倾 
斜 和 均匀 的 数据 ,直方 图 是 高 度 有 效 的 。 多 维 直 方 图 可 以 表现 属性 间 的 依赖 ,这 种 直方 图 能 
够 有 效 地 近似 多 达 5 个 属性 的 数据 ,但 有 效 性 尚 需 进 一 步 研究 。 对 于 存放 具有 高 频率 的 离 
群 点 , 单 桶 是 有 用 的 。 

【 例 2.9】 下 面 是 某 市 场 销售 的 商品 的 价格 清单 (按照 递增 的 顺序 排列 ,括号 中 的 数字 
表示 该 价格 产品 销售 的 数目 ) 。 

2(3) .5(5) .8(4).10(5),13(10).15(4).18(4).20(7) .21(10).23(6).26(8) .28(8). 
29(5) ,30(7) 

图 2-1 使 用 单 桶 显示 了 这 些 数据 的 直方 图 。 为 进一步 压缩 数据 ,通常 让 一 个 桶 代表 给 
定 属性 的 一 个 连续 值 域 。 在 图 2-2 中 每 个 桶 代表 商品 价格 的 一 个 不 同 的 $10 区 间 。 

3. RK 
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艇 质量 的 另 一 种 度量 ,定义 为 由 艇 质心 (表示 “平均 对 象 ”, 或 能 空间 中 的 平均 点 ) 到 每 个 能 对 
象 的 平均 距离 。 
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在 数据 归 约 中 ,用 数据 的 能 表示 蔡 换 实际 数据 ,该 技术 的 有 效 性 依赖 于 数据 的 性 质 。 如 
果 数 据 能 够 组 织 成 不 同 的 簇 ,该 技术 有 效 得 多 。 在 数据 库 系统 中 ,多 维 索 引 树 主要 用 于 对 数 
据 的 快速 访问 , 它 也 能 用 于 分 层 数据 的 归 约 ,提供 数据 的 多 维 聚 类 ,这 可 以 用 于 提供 查询 的 
近似 回答 。 对 于 给 定 的 数据 对 象 集 ,索引 树 递归 地 划分 多 维 空间 ,其 树 根 结 点 代表 整个 空 
间 。 通 常 , 这 种 树 是 平衡 的 ,由 内 部 结 点 和 树叶 结 点 组 成 。 每 个 父 结 点 包含 关键 字 和 指向 子 
女 结 点 的 指针 ,子女 结 点 一 起 表示 父 结 点 代表 的 空间 。 每 个 树叶 结 点 包含 指向 它 所 代表 的 
数据 元 组 的 指针 (或 实际 元 组 ) 。 

这 样 ,索引 树 可 以 在 不 同 的 分 辩 率 或 抽象 层 存放 聚集 和 细节 数据 。 它 提供 了 数据 集 的 
分 层 聚 类 ,其 中 每 个 徐 有 一 个 标记 ,存放 该 簇 包含 的 数据 。 如 果 把 父 结 点 的 每 个 子女 看 作 一 
个 桶 , 则 索引 树 可 以 看 作 一 个 分 层 的 直方 图 。 类 似 地 ,每 个 桶 进一步 分 成 更 小 的 桶 ,人 允许 在 
更 细 的 层次 聚集 数据 。 作 为 一 种 数据 归 约 形式 使 用 多 维 索引 树 依赖 于 每 个 维 上 属性 值 的 
次 序 。 

4. 抽样 

抽样 可 以 作为 一 种 数据 归 约 技术 使 用 ,因为 它 允 许 用 数据 的 小 得 多 的 随机 样本 ( 子 集 ) 
表示 大 型 数据 集 。 最 常用 的 抽样 方法 有 下 列 4 种 (假定 大 型 数据 集 D 包含 NN 个 元 组 )。 
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CD s 个 样本 无 放 回 简单 随机 抽样 (Simple Random Sampling Without Replacement. 
SRSWOR). 

(2) s 个 样本 有 放 回 简单 随机 抽样 (Simple Random Sampling With Replacement. 
SRSWR). 

(3) 聚 类 抽样 。 如 果 D 中 的 元 组 分 组 放 入 M 个 互 不 相交 的 “ 簇 ”, 则 可 以 得 到 ;个 簇 
的 简单 随机 抽样 (Simple Random Sampling. SRS) ,其 中 ;二 M。 例如 ,数据 库 中 元 组 通常 一 
次 检索 一 页 ,这 样 每 页 就 可 以 视 为 一 个 徐 。 也 可 以 利用 其 他 携带 更 丰富 语义 信息 的 聚 类 
标准 。 

(4) 分 层 抽 样 。 如 果 D 划分 成 互 不 相交 的 部 分 , 称 作 层 , 则 通过 对 每 一 层 的 SRS 就 可 
以 得 到 D 的 分 层 样本 。 特 别 是 当 数据 倾斜 时 ,这 可 以 帮助 确保 样本 的 代表 性 。 

采用 抽样 进行 数据 归 约 的 优点 是 ,得 到 样本 的 花费 正比 于 样本 集 的 大 小 ,而 不 是 数据 
集 的 大 小 N。 因 此 ,抽样 的 复杂 度 子 线性 (sublinear) 于 数据 的 大 小 。 其 他 数据 归 约 技术 至 
少 需要 完全 扫描 D。 对 于 固定 的 样本 大 小 ,抽样 的 复杂 度 仅 随 数据 的 维 数 线性 地 增加 ; 
而 其 他 技术 ,如 使 用 直方 图 ,复杂 度 随 n 指数 增长 。 

用 于 数据 归 约 时 ,抽样 最 常用 来 估计 聚集 查询 的 回答 。 在 指定 的 误差 范围 内 ,可 以 确定 
(使 用 中 心 极限 定理 ) 估 计 一 个 给 定 的 函数 所 需 的 样本 大 小 。 样 本 的 大 小 s 相对 于 N 可 能 
非常 小 。 对 于 归 约 数据 集 的 逐步 求 精 , 只 需要 简单 地 增加 样本 大 小 即 可 。 


2.6.5 数据 离散 化 与 概念 分 层 


通过 将 属性 值 域 划分 为 区 间 ,数据 离散 化 技术 可 以 用 来 减少 给 定 连续 属性 值 的 个 数 。 
区 间 的 标记 可 以 替代 实际 的 数据 值 。 用 少数 区 间 标 记 蔡 换 连 续 属性 的 数值 ,从 而 减少 和 简 
化 了 原来 的 数据 ,这 导致 挖掘 结果 的 简洁 .易于 使 用 .知识 层面 的 表示 。 

对 于 给 定 的 数值 属性 ,概念 分 层 定义 了 该 属性 的 一 个 离散 化 。 通 过 收集 较 高 层 的 概 
念 (如 青年 .中 年 或 老年 ) 并 用 它们 蔡 换 较 低 层 的 概念 (如 年 龄 的 数值 ) ,概念 分 层 可 以 用 
来 归 约 数据 。 通 过 这 种 数据 泛 化 ,尽管 细节 丢失 了 ,但 是 泛 化 后 的 数据 更 有 意义 .更 容易 
解释 。 

这 有 助 于 通常 需要 的 多 种 挖掘 任务 的 数据 挖掘 结果 的 一 致 表示 。 此 外 ,与 对 大 型 未 
泛 化 的 数据 集 挖 掘 相 比 ,对 归 约 的 数据 进行 挖掘 所 需 的 L/O 操作 更 少 ,并 且 更 有 效 。 正 
因为 如 此 ,离散 化 技术 和 概念 分 层 作为 预 处 理 步 骤 , 在 数据 挖掘 之 前 而 不 是 在 挖掘 过 程 
进行 。 

1. 数值 数据 的 离散 化 和 概念 分 层 产生 

数值 属性 的 概念 分 层 可 以 根据 数据 离散 化 自动 构造 。 通 常 ,每 种 方法 都 假定 待 离散 化 
的 值 已 经 按 递 增 序 排序 。 

1) 分 箱 

分 箱 是 一 种 基于 箱 的 指定 个 数 自 顶 向 下 的 分 裂 技 术 。 通 过 使 用 等 宽 或 等 频 分 箱 , 然 后 
用 箱 均值 或 中 位 数 蔡 换 箱 中 的 每 个 值 , 可 以 将 属性 值 离散 化 ,就 像 分 别 用 箱 的 均值 或 箱 的 中 
位 数 光 滑 一 样 。 这 些 技术 可 以 递归 地 作用 于 结果 划分 ,产生 概念 分 层 。 分 箱 并 不 使 用 类 信 
息 ,因此 是 一 种 非 监督 的 离散 化 技术 , 它 对 用 户 指定 的 箱 个 数 很 敏感 ,也 容易 受 离 群 点 的 
影响 。 























2) 直方 图 分 析 

像 分 箱 一 样 ,直方 图 分 析 也 是 一 种 非 监督 离散 化 技术 ,因为 它 也 不 使 用 类 信息 。 使 用 等 
频 直方 图 .理想 地 分 割 值 ,使 得 每 个 划分 包括 相同 个 数 的 数据 元 组 。 直 方 图 分 析 算 法 可 以 递 
归 地 用 于 每 个 划分 ,自动 地 产生 多 级 概念 分 层 ,直到 达到 预先 设 定 的 概念 层 数 过 程 终止 。 也 
可 以 对 每 一 层 使 用 最 小 区 间 长 度 控 制 递归 过 程 。 最 小 区 间 长 度 设 定 每 层 每 个 划分 的 最 小 宽 
度 ,或 每 层 每 个 划分 中 值 的 最 少数 目 。 直 方 图 也 可 以 根据 数据 分 布 的 聚 类 分 析 进 行 划分 。 
图 2-3 给 出 了 一 个 等 宽 直 方 图 ,显示 某 给 定数 据 集 的 数值 分 布 。 例 如 ,大 部 分 数据 分 布 在 
0 一 2170 ,在 等 宽 直 方 图 中 ,将 值 划分 成 相等 的 或 区 间 ( 如 (0,2170),(2170,4340),(4340， 
6510) .(6510.8680)). 














0 2170 4340 6510 8680 — 10850 
图 2-3 等 宽 直 方 图 


3) EFAN N BAE 

Wi entropy) J& JE AE HABLE EZ — IF RI P CA Ae F G 
分 裂 技术 。 它 在 计算 和 确定 分 裂 点 (划分 属性 区 间 的 数据 值 ) 时 利用 类 分 布 信息 。 对 离散 数 
值 属性 A, 选 择 A 的 具有 最 小 稍 的 值 作为 分 裂 点 ,并 递归 地 划分 结果 区 间 , 得 到 分 层 离散 
化 。 这 种 离散 化 形成 A 的 概念 分 层 。 

4) 基于 X 分 析 的 区 间 合 并 

采用 自 底 向 上 的 策略 ,递归 地 找 出 最 佳 邻近 区 间 ,然后 合并 它们 形成 较 大 的 区 间 。 这 种 
方法 是 监督 的 , 它 使 用 类 信息 。 其 基本 思想 是 ,对 于 精确 的 离散 化 ,相对 类 频率 在 一 个 区 间 
内 应 当 一 致 。 因 此 ,如 果 两 个 邻近 的 区 间 具 有 非常 类 似 的 类 分 布 ,这 两 个 区 间 可 以 合并 。 否 
则 ,它们 应 当 保持 分 开 。 

初始 ,将 数值 属性 A 的 每 个 不 同 值 看 作 一 个 区 间 。 对 每 对 相 邻 区 间 进 行 解 检验 。 具 有 
最 小 闪 值 的 相 邻 区 间 合并 在 一 起 ,因为 低 解 值 表明 它们 具有 相似 的 类 分 布 。 该 合并 过 程 递 
归 地 进行 ,直到 满足 预先 定义 的 终止 标准 。 

5) 聚 类 分 析 

聚 类 分 析 是 一 种 流行 的 数据 离散 化 方法 。 将 属性 A 的 值 划分 成 能 或 组 , 聚 类 考虑 A 的 
分 布 以 及 数据 点 的 邻近 性 ,可 以 产生 高 质量 的 离散 化 结果 。 遵 循 自 项 向 下 的 划分 策略 或 自 
底 向 上 的 合并 策略 , 聚 类 可 以 用 来 产生 A 的 概念 分 层 , 其 中 每 个 能 形成 概念 分 层 的 一 个 结 
点 。 在 前 者 ,每 一 个 初始 簇 或 划分 可 以 进一步 地 分 解 成 若干 子 簇 ,形成 较 低 的 概念 层 。 在 后 
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者 ,通过 反复 地 对 邻近 簇 进行 分 组 ,形成 较 高 的 概念 层 。 

6) 根据 直观 划分 离散 化 

3-4-5 规则 可 以 用 来 将 数值 数据 分 割 成 相对 一 致 。 一 般 来 说 ,该 规则 根据 最 高 有 效 位 的 
取 值 范围 ,递归 逐 层 地 将 给 定 的 数据 区 域 划分 为 3.4 或 5 个 相对 等 宽 的 区 间 。 

2. 分 类 数据 的 概念 分 层 产生 

1) 由 用 户 或 专家 在 模式 级 显 式 地 说 明 属 性 的 偏 序 

通常 ,分 类 属性 或 维 的 概念 分 层 涉及 一 组 属性 。 用 户 或 专家 在 模式 级 通过 说 明 属 性 的 
偏 序 或 全 序 , 可 以 很 容易 地 定义 概念 分 层 。 

2) 通过 显 式 数据 分 组 说 明 分 层 结构 的 一 部 分 

这 基本 上 是 人 工地 定义 概念 分 层 结构 的 一 部 分 。 在 大 型 数据 库 中 ,通过 显 式 的 值 枚 举 
定义 整个 概念 分 层 是 不 现实 的 。 然 而 ,对 于 一 小 部 分 中 间 层 数据 ,可 以 很 容易 地 显 式 说 明 
分 组 。 

3) 说 明 属 性 集 但 不 说 明 它 们 的 偏 序 

用 户 可 以 说 明 一 个 属性 集 形成 概念 分 层 , 但 并 不 显 式 说 明 它们 的 偏 序 。 然 后 ,系统 可 以 
尝试 自动 地 产生 属性 的 序 , 构 造 有 意义 的 概念 分 层 。 可 以 根据 给 定 属性 集中 每 个 属性 不 同 
值 的 个 数 自动 地 产生 概念 分 层 。 有 具有 最 多 不 同 值 的 属性 放 在 分 层 结 构 的 最 低层 。 一 个 属性 
的 不 同 值 个 数 越 少 , 它 在 所 产生 的 概念 分 层 结构 中 所 处 的 层次 越 高 。 在 许多 情况 下 ,这 种 启 
发 式 规则 都 很 顶 用。 在 考查 了 所 产生 的 分 层 之 后 ,如 果 必 要 ,局 部 层次 交换 或 调整 可 以 由 用 
户 或 专家 操作 。 

4) 只 说 明 部 分 属性 集 

在 定义 分 层 时 ,有 了 时 用 户 可 能 不 小 心 ,或 者 对 于 分 层 结构 中 应 当 包 含 什么 只 有 很 模糊 的 
想法 。 结 果 , 用 户 可 能 在 分 层 结构 说 明 中 只 包含 了 相关 属性 的 一 小 部 分 。 为 了 处 理 这 种 部 
分 说 明 的 分 层 结构 ,重要 的 是 在 数据 库 模式 中 嵌入 数据 语义 ,使 得 语义 密切 相关 的 属性 能 够 
捆 在 一 起 。 用 这 种 办 法 ,一 个 属性 的 说 明 可 能 触发 整个 语义 密切 相关 的 属性 组 / 拖 进 0, 形 
成 一 个 完整 的 分 层 结构 。 然 而 ,必要 时 用 户 应 当 可 以 选择 忽略 这 一 特性 。 


2.7 特征 选择 





























2.7.1 特征 选择 简介 


所 谓 特征 选择 ,就 是 从 一 组 数量 为 N 的 特征 中 选择 出 一 组 数量 为 M 的 最 优 特征 CN>> 
MD ,这 里 有 两 个 问题 要 解决 : 选择 一 种 可 分 性 判 据 作为 最 优 特征 选择 的 标准 ; @ HK $0 — 
个 好 的 算法 ,来 选择 出 这 组 最 优 特征 。 特 征 选 择 的 主要 思想 是 通过 去 除 一 些 包 含 少量 或 不 
相关 的 信息 的 特征 去 选择 特征 子 集 。 一 般 来 说 ,特征 选择 方法 可 分 为 以 下 三 大 类 。 

1. 过 滤 式 (filter) 

此 类 特征 选择 方法 是 基于 类 别 间 相互 独立 的 判别 标准 。 早 期 的 基于 过 滤 式 的 评估 方法 
没有 考虑 到 特征 的 相关 性 ,近年 来 有 些 方法 (如 Minimum Redundancy-Maximun Relevance. 
MRMR) 利 用 了 最 大 相关 和 最 小 元 余 的 标准 选择 加 入 特征 子 集 的 特征 项 ,优化 了 特征 子 集 
并 提高 了 其 泛 化 能 力 。 


2. 封装 式 (wrapper) 

封装 式 方法 把 分 类 器 作为 一 个 黑 盒 ,根据 特征 项 的 预测 能 力 去 存储 特征 子 集 。 例 如 , 基 
于 支持 向 量 机 的 封装 式 方法 已 经 被 广泛 应 用 到 机 器 学 习 领 域 。 

3. tk Ask (embedded) 

在 嵌入 型 特征 选择 中 ,特征 选择 算法 是 作为 学 习 算 法 的 部 分 柑 入 其 中 的 ,不 需要 将 训练 
样本 分 为 训练 集 和 验证 集 , 即 不 需要 对 中 间 结 果 进 行 验证 ,特征 选择 和 训练 过 程 同 时 进行 。 

进行 特征 选择 有 如 下 好 处 。 

(1) 降低 了 特征 空间 维 数 ,减少 了 需求 空间 并 且 加 快 了 算法 的 速度 。 

(2) 去 除了 元 余 的 、 无 关 的 或 “噪声 "数据 。 

(3) 进行 数据 分 析 ,缩短 了 学 习 算 法 的 运行 时 间 。 

(4). 经 过 选择 的 特征 更 加 容易 理解 。 

(5) 增加 了 分 类 模型 的 精确 度 。 

(6) 特征 集 的 消减 ,为 下 一 轮 数 据 收集 和 利用 节省 了 资源 。 

(7) 分 类 性 能 的 提升 ,从 而 提高 了 预测 的 准确 性 。 

(8) 数据 分 析 , 有 利于 解释 底层 数据 蕴含 的 信息 。 

下 面 对 过 滤 式 算法 进行 详细 介绍 。 过 滤 式 特征 属性 选择 算法 中 比较 经 典 的 算法 有 拉 氏 
评分 算法 ,SPEC 算法 、Fisher 算法 、ReliefF 算法 等 ,之 后 很 多 算法 都 在 这 些 经 典 算法 基础 
上 ,针对 不 同 的 领域 数据 特征 进行 了 优化 和 适应 性 改变 。 

D 拉 氏 算法 

通过 存 有 数据 样本 位 置信 息 的 关联 矩阵 选择 特征 属性 。 给 定 关联 矩阵 天、 相关 度 矩 阵 
D 以 及 拉 氏 和 矩阵 工 , 通 过 拉 氏 评分 计算 公式 得 到 每 一 个 特征 属性 的 拉 氏 评分 。 进 而 通过 贪 
禁 算法 ,递增 式 地 选择 满足 目标 函数 的 最 优 k 个 特征 属性 ,最 终 获得 满意 的 特征 属性 子 集 。 

2) Fisher 算法 

也 是 一 种 变形 的 拉 氏 算法 ,但 其 特征 属性 评价 函数 与 后 者 存在 形式 上 的 变化 ,其 本 质 仍 
是 选择 “能 够 将 相似 数据 样本 分 配 相近 特征 值 的 特征 ”。 

3) SPEC 算法 

该 算法 对 拉 氏 算法 进行 了 有 效 的 拓展 。 算 法 在 给 定 相 关 数 据 和 矩阵 后 ,给 出 了 不 同 的 特征 
属性 评价 方程 。 通 过 关联 矩阵 的 特征 值 作为 相关 特征 向 量 的 标准 ,进而 依赖 评价 方程 选择 满 
足 目 标 函 数 要 求 的 特征 。 该 算法 认为 好 的 特征 能 够 对 相似 的 数据 样本 分 配 近 似 的 特征 值 。 

4) ReliefF 算法 

该 算法 源 于 Relief 算法 。Relief 算法 的 本 质 在 于 选择 “能 够 对 不 同类 标签 的 数据 样本 
以 相 异 特征 值 ,而 对 相同 类 标签 的 数据 样本 分 配 相近 特征 值 ” 的 特征 。ReliefF 算法 对 
Relief 算法 进行 了 特征 属性 评价 函数 的 改进 ,使 其 从 二 元 类 标签 转化 为 能 够 对 多 元 类 标签 
进行 特征 属性 的 选择 。 

5) t-score 算法 

基于 数据 统计 的 角度 ,运用 统计 学 中 方差 等 数学 工具 判断 特征 “是 否 能 够 区 分 不 同类 标 
签 的 数据 样本 ”, 如 该 特征 属性 的 区 分 能 力 较 好 , 则 对 其 选择 进入 特征 属性 子 集中 。 

6) 基于 最 大 相关 最 小 元 余 的 算法 (MRMR ) 

该 算法 不 仅 考虑 每 个 特征 属性 相对 于 类 标签 的 相关 性 ,同时 考虑 特征 属性 集合 内 部 自 
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身 关 系 的 元 余 性 。 算 法 选择 的 特征 属性 子 集 , 不 仅 与 类 标签 具有 强 相 关 , 而 且 集 合 内 部 互相 
之 间 的 关系 实现 最 小 化 。 算 法 依赖 信 启 、 增 对 特征 间 、 特 征 与 类 标签 间 关系 进行 有 效 度 量 ， 
快速 高 效 地 对 特征 进行 排序 ,并 通过 其 他 分 类 器 等 手段 对 排序 后 的 特征 属性 进行 合理 选择 。 


2.7.2 Relief 算法 


Relief 为 一 系列 算法 , 它 包 括 最 早 提出 的 Relief 以 及 后 来 拓展 的 ReliefF 和 RReliefF， 
其 中 RReliefF 算法 是 针对 目标 属性 为 连续 值 的 回归 问题 提出 的 ,下 面 仅 介 绍 针对 分 类 问题 
的 Relief 和 ReliefF 算法 。 

Relief 算法 最 早 由 Kira 提出 ,最 初 局 限于 两 类 数据 的 分 类 问题 。Relief 算法 是 一 种 特 
征 权重 算法 (feature weighting algorithms) ,根据 各 个 特征 和 类 别 的 相关 性 赋予 特征 不 同 的 
权重 ,权重 小 于 某 个 阔 值 的 特征 将 被 移 除 。Relief 算法 中 特征 和 类 别 的 相关 性 是 基于 特征 
对 近 距 离 样本 的 区 分 能 力 。 算 法 从 训练 集 D. 中 随机 选择 一 个 样本 尺 ,然后 从 和 R 同类 的 样 
本 中 寻找 最 近邻 样本 HH. PRY Near Hit, 从 和 R 不 同类 的 样本 中 寻找 最 近邻 样本 M, 称 为 
Near Miss, 然 后 根据 以 下 规则 更 新 每 个 特征 的 权重 : n RR I Near Hit 在 某 个 特征 上 的 
距离 小 于 R 和 Near Miss 上 的 距离 , 则 说 明 该 特征 对 区 分 同类 和 不 同类 的 最 近邻 是 有 益 的 ， 
则 增加 该 特征 的 权重 ; 反之 ,如 果 R FI Near Hit 在 某 个 特征 的 距离 大 于 R 和 Near Miss 上 
的 距离 ,说明 该 特征 对 区 分 同类 和 不 同类 的 最 近邻 起 负面 作用 , 则 降低 该 特征 的 权重 。 以 上 
过 程 重复 m 次 ,最 后 得 到 各 特征 的 平均 权重 。 特 征 的 权重 越 大 ,表示 该 特征 的 分 类 能 力 越 
强 , 反 之 ,表示 该 特征 分 类 能 力 越 弱 。Relief 算法 的 运行 时 间 随 着 样本 的 抽样 次 数 mx 和 原始 
特征 个 数 N 的 增加 线性 增加 ,因而 运行 效率 非常 高 。 具 体 算 法 如 下 。 

设 训练 数据 集 DD, 样 本 抽样 次 数 m. AFERE I BIS 0. diff lA. R. HRR R M H 在 特 
征 A 上 的 距离 ,diff(A,R,M) 表 示 R 和 M 在 特征 A 上 的 距离 ,输出 是 各 个 特征 的 权重 T: 

D BO 所 有 特征 权重 ,了 为 空 集 。 

(2) For i = 1 tom do 

O 随机 选择 一 个 样本 R。 

© 从 同类 样本 集中 找到 R 的 最 近邻 样本 瓦 , 从 不 同类 样本 集中 找到 最 近邻 样本 M。 

(3) for i—1 to N do 

WCA) —-WCA) —diffCA. R. H) /m-d- diff( A. RM. M) /m 
if W(A)>ô 

把 第 A 个 特征 添加 到 工 中 
end 

由 于 Relief 算法 比较 简单 ,但 运行 效率 高 ,并 且 结果 也 比较 令 人 满意 ,因此 得 到 广泛 应 
用 ,但 是 其 局 限 性 在 于 只 能 处 理 两 类 别 数据 .因此 1994 年 Kononeill 对 其 进行 了 扩展 ,得 到 
了 可 以 处 理 多 类 别 问题 ReliefF 算法 ,可 以 处 理 多 类 别 问题 。 该 算法 用 于 处 理 目 标 属性 为 
连续 值 的 回归 问题 。ReliefF 算法 在 处 理 多 类 问题 时 ,每 次 从 训练 样本 集中 随机 取出 一 个 样 
本 尺 ,然后 从 和 RR 同类 的 样本 集中 找 出 R 的 & 个 近邻 样本 (near Hits) ,从 每 个 R 的 不 同类 
的 样本 集中 均 找 出 个 近邻 样本 (near Misses) ,然后 更 新 每 个 特征 的 权重 ,如 下 式 所 示 。 





























k 
W(A) = W(A) — MiffCA. R. Hj) / (mk) 
£z 


=1 


十 pO) 
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ILLA i RM, 
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]/ ow 


式 中 ,diff(A,Ri,R;) 表 示 样 本 Ri 和 样本 Re 在 特征 A E R35 M CC) 表示 类 C 中 的 第 7 个 


最 近邻 样本 ,如 下 式 所 示 。 


| 2: [A]—R2[A]| 


max(A) — min(A) 


diff(A,Ri,R2) = 0 


1 
ReliefF 算法 具体 的 伪 代 码 如 下 。 


Ais continuous 


A is discrete and R;[A]— R;[A] 
A is discrete and R, [A J] R;[A] 


设 训练 数据 集 为 DPE AS HE Uk Bom «RF GE A BEY BU (0. cos AB PE AS T Ce sS i E 


PEE NIL ET. 


CD 置 所 有 特征 权重 为 0,T HER. 


(2) for i=1 to m do 


Q A D 中 随机 选择 一 个 样本 RR。 


@ AR 的 同类 样本 集中 找到 R 的 & 个 最 近邻 日;(j 二 1,2,…,k), 从 每 一 个 不 同类 样本 


集中 找 出 & 最 近邻 Mi(CC) 。 


(3) for A—1 to N ALL feature do 


k 
W(A) — MiffCA.R.H;) 








j=l 
WA) (mk ) 


xi... 
| Ce aeo l — p(class(R)) 


k 
3 diffCA.R.MCO» | 
j=l 





end 


Relief Z Jil Si 32 AT A i HY RH 2879 i A BR tll JR TF — GE AL 
,所 以 算法 的 局 限 性 在 于 不 能 有 效 地 去 除 元 余 


予 所 有 和 类 别 相关 性 高 的 特征 较 高 的 


(mk) 


ia 


T 8 
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【 例 2.10】 本 例 实验 数据 来 自 著名 的 UCI 机 器 学 习 数 据 库 ,该 数据 库 有 大 量 的 人 工 智 
能 数据 挖掘 数据 ,网址 为 http://archive. ics. uci. edu/ml/. 。 本 例 选 用 的 数据 类 型 为 : Breast 
Cancer Wisconsin (Original) Data Set( 中 文 名 称 为 威斯康星 州 乳 腺 癌 数 据 集 )。 这 些 数 据 
来 源 美 国威 斯 康 星 大 学 医院 的 临床 病例 报告 ,每 条 数据 具有 11 个 属性 。 下 载 的 数据 文件 格 





式 为 “data”, 表 2-3 是 该 数据 集 的 11 个 属性 名 称 及 说 明 。 


X 2-3 Breast Cancer Wisconsin (Original) 数据 集 属性 信息 表 























属性 名 称 说 0 特征 编号 
样品 编号 病人 身份 证 号 码 无 
块 厚度 范围 1~10 1 
细胞 大 小 均匀 性 范围 1~10 2 
细胞 形态 均匀 性 范围 1 一 10 3 
边缘 粘 附 力 范围 1 一 10 4 
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续 表 
属性 名 称 说 明 特征 编号 
单 上 皮 细 胞 尺寸 范围 1 一 10 5 
mE 范围 1 一 10 6 
Bland 染色 质 范围 1 一 10 7 
正常 核 仁 范围 1 一 10 8 
BAR 范围 1 一 10 9 
分 类 2 为 良性 4 为 恶性 10 


对 上 述 数据 进行 转换 后 ,并 根据 数据 说 明 可 知 ,可 以 用 于 特征 提取 的 有 9 个 指标 ,样品 
编号 和 分 类 只 是 用 于 确定 分 类 。 本 例 的 数据 处 理 思路 是 采用 ReliefF 特征 提取 算法 计算 各 
个 属性 的 权重 ,剔除 相关 性 最 小 的 属性 。 本 例 在 转换 数据 后 ,首先 进行 了 预 处 理 , 由 于 本 文 
的 数据 范围 都 是 1 一 10, 因 此 不 需要 归 一 化 ,但 是 数据 样本 中 存在 一 些 不 完整 ,会 影响 实际 
的 程序 运行 ,经 过 程序 处 理 , 将 这 一 部 分 数据 删除 。 这 些 不 完整 的 数据 都 是 由 于 实际 中 一 些 
原因 没有 登记 或 者 遗失 的 ,以 “2 的 形式 代表 。 

采用 ReliefF 算法 计算 各 个 特征 的 权重 ,权重 小 于 某 个 闵 值 的 特征 将 被 移 除 ,针对 本 例 
的 实际 情况 ,将 对 权重 最 小 的 2 一 3 种 剔除 。 由 于 算法 在 运行 过 程 中 ,会 选择 随机 样本 R. pi 
机 数 的 不 同 将 导致 结果 权重 有 一 定 的 出 入 ,因此 本 例 采 取 平 均 的 方法 ,将 主 程序 运行 20 次 ， 







































































然后 将 结果 汇总 求 出 每 种 权重 的 平均 值 。 如 表 2-4 所 示 , 列 为 属性 编号 ,行为 每 一 次 的 计算 
结果 。 图 2-4 是 特征 提取 算法 计算 的 特征 权重 趋势 图 ,计算 20 次 的 结果 趋势 相同 。 
表 2-4 ReliefF 算法 统计 结果 表 
次 数 1 2 3 4 5 6 7 8 9 
1 0.2207 | 0.1406 | 0.1434 | 0.1120 | 0.0644 | 0.2123 | 0.1163 | 0.1944 | 0.0375 
2 0.2311 | 0.1488 | 0.1703 | 0.1407 | 0.0701 | 0.2491 | 0.1049 | 0.1724 | 0.0363 
3 0.2111 | 0.1535 | 0.1568 | 0.1285 | 0.0755 | 0.2604 | 0.1243 | 0.2012 | 0.0693 
4 0.2099 | 0.1865 | 0.1847 | 0.1694 | 0.0771 | 0.2337 | 0.1306 | 0.2219 | 0.0674 
5 0.2436 | 0.1554 | 0.1689 | 0.1424 | 0.0628 | 0.2391 | 0.1309 | 0.2054 | 0.0479 
6 0.2125 | 0.1460 | 0.1641 | 0.1220 | 0.0762 | 0.2366 | 0.1422 | 0.1936 | 0.0609 
7 0.2436 | 0.1439 | 0.1759 | 0.1722 | 0.0752 | 0.2351 | 0.1351 | 0.2005 | 0.0431 
8 0.2089 | 0.1443 | 0.1559 | 0.1571 | 0.0785 | 0.2399 | 0.1125 | 0.1759 | 0.0545 
9 0.2273 | 0.1483 | 0.1615 | 0.1523 | 0.0674 | 0.2615 | 0.1399 | 0.2108 | 0.0394 
10 0.2295 | 0.1314 | 0.1641 | 0.1439 | 0.0724 | 0.2517 | 0.1439 | 0.2068 | 0.0554 
11 0.2120 | 0.1450 | 0.1204 | 0.1328 | 0.0703 | 0.2356 | 0.1234 | 0.1995 | 0.0535 
12 0.2516 | 0.1385 | 0.1693 | 0.1484 | 0.0672 | 0.2580 | 0.1314 | 0.2062 | 0.0470 
13 0.2507 | 0.1552 | 0.1642 | 0.1597 | 0.0785 | 0.2422 | 0.1224 | 0.1913 | 0.0347 
14 0.2219 | 0.1615 | 0.1616 | 0.1293 | 0.0812 | 0.2361 | 0.1035 | 0.1870 | 0.0530 
15 0.2075 | 0.1474 | 0.1490 | 0.1222 | 0.0738 | 0.2524 | 0.1229 | 0.1946 | 0.0319 
16 0.2038 | 0.1462 | 0.1538 | 0.1510 | 0.0604 | 0.2200 | 0.1335 | 0.2172 | 0.0564 
17 0.2302 | 0.1786 | 0.1707 | 0.1366 | 0.0757 | 0.2405 | 0.1280 | 0.2172 | 0.0679 
18 0.2226 | 0.1097 | 0.1139 | 0.1205 | 0.0679 | 0.2401 | 0.1035 | 0.1616 | 0.0359 
19 0.2083 | 0.1509 | 0.1701 | 0.1318 | 0.0870 | 0.2380 | 0.1210 | 0.2123 | 0.0467 
20 0.2245 | 0.1559 | 0.1507 | 0.1373 | 0.0821 | 0.2330 | 0.1083 | 0.1884 | 0.0668 





























特征 权重 
e 


属性 标号 
图 2-4 ReliefF 算法 静 思 园 乳 腺 癌 数 据 特征 权重 图 


由 此 可 得 特征 属性 的 权重 均值 如 表 2-5 所 示 。 

表 2-5 属性 权重 统计 表 
属性 1 属性 2 属性 3 属性 4 属性 5 属性 6 属性 7 属性 8 属性 9 
0.2237 | 0.1494 | 0.1588 | 0.1408 | 0.0732 | 0.2408 | 0.1243 | 0.1979 | 0.0503 





按照 从 小 到 大 顺序 排列 ,可 知 ,各 个 属性 的 权重 关系 如 下 : 属性 9 一 属性 5 二 属性 7 过 属 
性 4 二 属性 2 二 属性 3 二 属性 8 二 属性 1 二 属性 6。 此 时 选 定 权 重 闵 值 为 0.02, 则 属性 9、 属 
Tk A 和 属性 5 剔除 。 从 上 面 的 特征 权重 可 以 看 出 ,属性 6 裸 核 大 小 是 最 主要 的 影响 因素 ,说 
明 乳 腺 瘤 患者 的 症状 最 先 表现 了 裸 核 大 小 上 ,将 直接 导致 裸 核 大 小 的 变化 ; 其 次 是 属性 1 
和 属性 8 等 ,后 几 个 属性 权重 大 小 接近 ,但 是 从 多 次 计算 规律 来 看 ,还 是 能 够 说 明 其 中 不 同 
的 重要 程度 。 

下 面 着 重 对 几 个 重要 的 属性 进行 分 析 。 首 先是 20 次 测试 中 , 裸 核 大 小 (属性 6) 的 权重 
变化 ,如 图 2-5 所 示 。 
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图 2-5 属性 6 的 特征 权重 变化 图 





从 图 2-5 中 可 以 看 到 ,该 属性 权重 大 部 分 在 0. 22~0. 26, 是 权重 最 大 的 一 个 属性 。 接 着 
观察 属性 1 的 权重 分 布 ,如 图 2-6 所 示 。 
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计算 次 数 
图 2-6 属性 1 的 特征 权重 变化 图 


块 厚度 属性 1 的 特征 权重 在 0. 20—0. 25 变动 ,也 是 权重 极 高 的 一 个 ,说 明 该 特征 属性 
在 乳腺 癌 患 者 检测 指标 中 是 相当 重要 的 一 个 判断 依据 。 进 一 步 分 析 显 示 , 再 单独 对 属性 6 
和 属性 1 进行 聚 类 分 析 , 其 成 功率 就 可 以 达到 91. 8%。 


2.7.3 Fisher 判别 法 
Fisher 判别 法 是 历史 上 最 早 提出 的 判别 方法 之 一 ,其 基本 思想 是 将 nn 类 m 维 数据 集 尽 
可 能 地 投影 到 一 个 方向 (一 条 直线 ) ,使 得 类 与 类 之 间 尽 可 能 地 分 开 。 从 形式 上 看 ,该 方法 就 


是 所 谓 的 降 维 处 理 方法 。 为 简单 起 见 , 这 里 以 两 类 问题 w 和 ws 的 分 类 说 明 Fisher 判别 法 
的 原理 ,如 图 2-7 所 示 。 








最 不 利 投影 方向 让、 o% 























图 2-7 Fisher 判别 法 几何 原理 示意 图 


设 数据 阵 为 X R” can 共有 Ni 个 样本 ,ws 共有 N 个 样本 ,N 一 Ni 十 Nas。 两 个 类 别 
在 输入 空间 的 均值 向 量 为 


其 中 


设 有 一 个 投影 方向 w= Gun ,wz，… ,wm) ”ER”, 这 两 个 均值 向 量 在 该 方向 的 投影 为 


wp we ER 
Nie 

fa = 0" pe = wx ER 
Nie, 


在 w 方 向 ,两 均值 之 差 为 
V= | di -pl=|w Qn — p) | 
类 似 地 ,样本 总 均值 向 量 在 该 方向 的 投影 为 











N 
Bw pe Pa ER 
NA 
定义 类 间 散 度 (Between-class scatter) 平 方 和 SSs 为 


2 
SS= NiGn — Y + Nap —p) = SN; Qi; —p)’ 
j=1 


= Ni Cw" ps — wp)’ + No wp — wp)’ 


w' [NiGn — ge) (per — pe” + N:On — po) peo p) Jw 


ll 


w' Saw 
. 


Ss= Nin — un — pe” + No (per — pe) (po y)" 
2 
= MN;Q; — n? (ps p)" (2-7) 
j=l 
定义 类 w 的 类 内 散 度 (within-class scatter) 平 方 和 为 
SSw = X) wx, — A)? = >) x, — wp)? 


PEN; PEN; 


两 个 类 的 总 的 类 内 散 度 误差 平方 和 为 




















= w'Syw (2-8) 


其 中 ， 


2 
Sy = D0, — pg), p) 


J=1 PEN; 
我 们 的 目的 是 使 类 间 散 度 平方 和 SSs 与 类 内 散 度 平方 和 SS。 的 比值 为 最 大 , 即 


_ SSa  w'Sgw 
max] (w) = SSv We” 


Al 2-8 和 2-9 给 出 了 类 间 散 度 平方 和 Ss 与 类 内 散 度 平 方 和 Se 的 几何 意义 。 根 据 











图 2-8, 类 间 散 度 平方 和 Ss 的 另 一 种 表示 方式 为 

















SSp = (ii — gi = Qv m — wl pe)? = w' Qn — ui) (per — po) w = w Saw 


这 里 ， 
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图 2-8 Fisher 判别 法 一 一 类 间 散 度 平方 和 (分 子 ) 的 几何 意义 
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图 2-9 Fisher 判别 法 一 一 类 内 散 度 平方 和 (分 母 ) 的 几何 意义 


Ss = Qu — po) n — ui 
可 以 证 明 , 式 (2-7) 与 式 (2-9) 只 相差 一 个 系数 。 简 单 证 明 如 下 : 
HT 
-i = Mp +N w 
P Het 212) 1 E 2 fe 
IN Aa Em x, Ew, i 
由 式 (2-7) 得 
Ss= Nin 一 pn)(a — n)! + No per — po) (per — 7 
$ 
Ni (m Nun Ne pe) (n Msc 


N 











Na (pu etes ete 


1 








Ni N4 NÍN 
MP (m quo Qu — ui d NE (M guo — uo 
_ NiN: 


= TN pe) Cpe =p)" 


(2-9) 


这 说 明 , 式 (2-9) 与 式 (2-7) 只 相差 一 个 与 样本 数 有 关 的 常数 。 根 据 图 2-9, 类 内 散 度 平 


Jj f SSe 的 另 一 种 表示 方式 为 


SS 一 S Vat M Vis 


x, ey PX 
一 b» [w^ Gc, — p Y + R [w (xp 一 pz) 了 
x, ay x, Gay 
= v( 31 Gap — pa) G, — pd) N — go Gs 一 parjw 
x, Em xp Evy 
= w' Sww 


这 正 是 式 (2-8) 。 下 面 分 析 怎 样 确定 最 佳 投影 方向 w。 显 然 , Ss 、Sw 均 为 对 称 阵 ,于 是 
(Sw)? =(Sh)?, H Sw=(Sw)?(Sw)?, 4 v— (Sw)? w, Wl w= Sw) * v, EAE 
wTSaw — v™(Sh)~?Sn (Sw)? v 
w'Sww viv 

lis C2- 10) J4 BC «8 fe FRACS EAH Asa [ (SE) Sa (Sw) 7? ] 一 Mmx[(Sw)-1Se] 对 
应 的 特征 向 量 。 即 


(2-10) 





maxJ(w) = 


(Sw) Sew 一 AmaxW (2-11) 
因为 
Saw= (qu — ui) Qu — pe) w 
= (m — pu) (ui w — pw) 
Gn — w ) Qu — faz) 
=al — pz) 


式 (2-11) 可 写成 
a (Sw) (per — po) = À max W 
这 说 明 ,w 的 方向 与 (Sw ) (pai 一 pe ) 的 方向 一 致 , 即 
w= (Sw) Qu — pe) 
因此 在 应 用 过 程 中 ,往往 不 必 求 出 类 间 散 度 阵 Ss。w 与 输入 空间 维 数 相等 ,或 者 说 , 投 
影 方向 过 原点 。 设 分 类 阔 值 为 2, 判别 公式 为 


x€o wzo 





x€o w'xiü 
不 定 wx 一 0 
确定 0 的 一 些 经 验 公式 为 
(1) 取 两 个 类 别 均值 在 w 方向 投影 的 简单 平均 。 
j= mnte) 


(2) 考虑 样本 数 的 两 个 类 别 均值 在 w 方向 投影 的 平均 。 
= w (Ni un TON: ge) 
N 


(3) 考虑 类 方差 的 两 个 类 别 均值 在 w 方向 投影 的 平均 。 
p Ww" (G2 pr +61 po) 


81 d 8; 
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或 


这 里 ,zl G2 分 别 为 两 个 类 别 在 w 方 向 投影 的 均 方差 。 当 然 , 当 类 内 散 度 阵 Sw A RT XE, 
Fisher 判别 法 失效 。 

【 例 2. 11] 
级 ,zz: 震中 距 (km) ,zs : KRM eaa : 
ar: 地 震 持续 时 间 (s)。 有 具体 数据 如 表 2-6 所 示 。 


在 研究 地 震 预报 中 , 遇 到 沙 基 液 化 问题 ,选择 下 列 7 个 有 关 的 因素 : wis 震 











表 2-6 地 震 参数 表 


深 (m) ,zs: 贯 入 值 ,zs: CARRIE ECO? N/m’), 






































































































































ET ES x3 Ta Xs Ts T; 类 别 序号 
6.6 39 1.0 6.0 6.0 0.12 20 I 1 
6.6 39 1.0 6.0 12 0.12 20 I 2 
6.1 47 1.0 6.0 6.0 0. 08 12 T 3 
6.1 47 1.0 6.0 12 0. 08 12 T 4 
8.4 32 2.0 7.5 19 0.35 75 T 5 
7.2 6.0 1.0 7.0 28 0. 30 30 T 6 
8.4 113 3.5 6.0 18 0.15 75 T $ 
7.5 52 1.0 6.0 12 0.16 40 T 8 
7.5 52 3.5 7.5 6.0 0.16 40 I 9 
8.3 113 0.0 7.5 35 0.12 180 T 10 
7.8 172 1.0 3.5 14 0.21 45 I 11 
7.8 172 1.5 3.0 15 0.21 45 I 12 
8.4 32 1.0 5.0 4.0 0.35 75 I 13 
8.4 32 2.0 9.0 10 0.35 75 I 14 
8.4 32 2.5 4.0 10 0.35 75 I 15 
6.3 11 4.5 7.5 3.0 0. 20 15 I 16 
7.0 8.0 4.5 4.5 9.0 0. 25 30 I 17 
7.0 8.0 6.0 7.5 4.0 0. 25 30 I 18 
7.0 8.0 1.5 6.0 1.0 0. 25 30 I 19 
8.3 161 1.5 4.0 4.0 0.08 70 I 20 
8.3 161 0.5 2.5 1.0 0. 08 70 I 21 
1.2 6.0 3.5 4.0 12 0. 30 30 I 22 
7.2 6.0 1.0 3.0 3.0 0. 30 30 I 23 
7.2 6.0 1.0 6.0 5.0 0. 30 30 I 24 
5.5 6.0 2.5 3.0 7.0 0.18 18 T 25 
8.4 113 3.5 4.5 6.0 0.15 75 T 26 
8.4 113 3.5 4.5 8.0 0.15 75 T 27 
1.5 52 1.0 6.0 6.0 0.16 40 T 28 
7.5 52 1.0 7.5 8.0 0.16 40 I 29 
8.3 97 0.0 6.0 5.0 0.15 180 T 30 
8.3 97 2.5 6.0 5.0 0.15 180 I 31 
8.3 89 0.0 6.0 10 0. 16 180 T 32 
8.3 56 1.5 6.0 13 0.25 180 T 33 
7.8 172 1.0 3.5 6.0 0.21 45 I 34 
7.8 283 1.0 4.5 6.0 0.18 45 I 35 


解 : 设 数据 文件 名 为 d:\a. txt. A] Matlab 实现 的 源 程序 如 下 。 


load d:\ss. txt; 
a=ss; 
m= mean(a(1:12, :)); 
m(2:2,:) = nean(a(13:35, :)); 
ssb = (n(1:1,:) -1(2:2,:)) ' * (n(1:1, :) 2 n(2:2, :)); 
ssw = zeros(7,7) ; 
for i=1:12, 
ssw-sswt(a(i:i,:)-m(1:1,:))'* (a(i:i,:) —m(1:1,:)); 
end 
for i=13:35, 
ssw=sswt (a(i:i,:) —m(2:2,:))'* (a(i:i,:) —m(2:2,:)); 
end 
w= inv(ssw) * (m(1:1,:) - n(2:2,:)) ; 
result = a* w; 
theta 7 w' * (n(1:1, :) t n(2:2, :)) 72; 
for i=1:35, 
result(i:i,2:2) = theta; 
result(i:i,3:3) =i; 
end 


投影 方向 向 量 为 

W'=(0. 0202. —0. 0001, —0.0175. 0.0156. 0.0160. —0. 7333, —0.0016)T. 
DR REA 0. 1358, 

决策 面 方程 为 








x: L(z) 一 WT .zx 一 0.1358 一 0 
其 中 z= (a ore ot) 
分 类 结果 如 表 2-7 所 示 。 
表 2-7 分 类 结果 表 












































序号 whe 0 一 0.1358(3. 58) | 9=0. 1007(3. 59) | 9=0. 1709(3. 60) | 9=0. 1567(3. 61) |0—0. 1149(3. 62) 
1 0. 1812 
2 0. 2772 
3 0. 2125 
4 0. 3085 
5 0.1749 
6 0. 4163 
7 0. 2475 
8 0. 2325 
9 0. 1160 * * * 
10| 0.4551 
11 0. 1745 
12 0. 1739 
13 | —0. 0866 
14 0. 0542 
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续 表 
序号 w?x |d=0.1358(3.58) | 6 一 0. 1007(3. 59) | 6 一 0. 1709(3. 60) | 6 一 0. 1567(3. 61) |9=0. 1149(3. 62) 
15 | 一 0. 0325 
16 0. 0414 
17 0. 0442 
18 | —0. 0153 
19 | —0. 0078 
20 0.0797 
21 0.0259 
22 0. 0696 
23 | 一 0. 0462 
24 0. 0326 
25 0. 0645 
26 0. 0320 
27 0. 0641 
28 0. 1365 * * * 
29 0. 1919 * * * * * 
30 | —0. 0687 
31 | —0. 1126 
32 0. 0048 
33 | —0. 0361 
34 0.0464 
35 0.0726 























2.7.4 ”基于 GBDT 的 过 滤 式 特征 选择 


GBDT(Gradient Boosting Decision Tree) 是 一 种 迭代 的 决策 树 算 法 , 又 称 MART 
(Multiple Additive Regression Tree) 算 法 。 该 算法 由 多 棵 决策 树 组 成 ,所 有 树 的 结论 累加 
为 最 终 答 案 。 它 在 被 提出 之 初 就 和 SVM(Supported Vector Machine, 支 持 向 量 机 ) 一 起 被 
认为 是 泛 化 能 力 (generalization) 较 强 的 算法 。 近 些 年 更 因为 被 用 于 搜索 排序 的 机 器 学 习 模 
型 而 引起 大 家 关注 。GBDT 主要 由 3 个 概念 组 成 , 即 Regression Decision Tree (DT)、 
Gradient Boosting(GB) 和 Shrinkage。 

1. DT(Regression Decision Tree, 回 归 树 ) 

决策 树 分 为 两 大 类 ,回归 树 和 分 类 树 。 前 者 用 于 预测 实数 值 ,如 明天 的 温度 、 用 户 的 年 
龄 .网 页 的 相关 程度 ; 后 者 用 于 分 类 标签 值 ,如 晴天 / 阴 天 /和 雾 / 雨 .用 户 性 别 、 网 页 是 否 是 垃 
圾 页 面 。 这 里 要 强调 的 是 ,前 者 的 结果 加 减 是 有 意义 的 ,如 “10 岁 十 5 岁 一 3 09 —12 岁 ”, 后 
者 则 无 意义 ,如 “ 男 十 男 十 女 三 到底 是 男 是 女 ?”"GBDT 的 核心 在 于 累加 所 有 树 的 结果 作为 
最 终结 果 , 就 像 前 面 对 年 龄 的 累加 (一 3 是 加 负 3), 而 分 类 树 的 结果 是 没 办 法 累加 的 ,所 以 
GBDT 中 的 树 都 是 回归 树 , 不 是 分 类 树 ,这 点 对 于 理解 GBDT 相当 重要 ,尽管 GBDT 调整 后 
也 可 用 于 分 类 但 不 代表 GBDT 的 树 是 分 类 树 。 

下 面 以 对 人 的 性 别 判 别 /年 龄 预测 为 例 来 说 明 , 每 个 instance 都 是 一 个 我 们 已 知性 别 / 
年 龄 的 人 ,而 feature 则 包括 这 个 人 上 网 的 时 长 、 上 网 的 时 段 、 网 购 所 花 的 金额 等 。 作 为 对 





























比 , 先 说 分 类 树 ,已 知 C4. 5 分 类 树 在 每 次 分 支 时 ,是 穷 举 每 一 个 feature 的 每 一 个 阔 值 , 找 
到 使 得 按照 “feature <= Bil fH” fü" feature >H (8 " 4) RHI P3 P 27 3c 3 488 ECC I]. feature TU BU {AL 
ARAKS IERE n] Be A: AS y 3c 0 95 3c EE LAE ES 1 : 1) ,按照 该 标准 分 支 得 到 两 
个 新 结 点 ,用 同样 方法 继续 分 支 直 到 所 有 人 都 被 分 入 性 别 唯一 的 叶子 结 点 ,或 达到 预 设 的 终 
止 条 件 ; 若 最 终 叶 子 结 点 中 的 性 别 不 唯一 ' 则 以 多 数 人 的 性 别 作为 该 叶子 结 点 的 性 别 。 
器 归 树 总 体 流程 也 是 类 似 ,不 过 在 每 个 结 点 (不 一 定 是 叶子 结 点 ) 都 会 得 一 个 预测 值 , 以 
年 龄 为 例 , 该 预测 值 等 于 属于 这 个 结 点 的 所 有 人 年 龄 的 平均 值 。 分 支 时 穷 举 每 一 个 feature 
的 每 个 阔 值 , 找 最 好 的 分 割 点 ,但 衡量 最 好 的 标准 不 再 是 最 大 灶 , 而 是 最 小 化 均 方 差 一 一 即 
(每 个 人 的 年 龄 一 预测 年 龄 )^2 的 总 和 除 以 N, 或 者 说 是 每 个 人 的 预测 误差 平方 和 除 以 N。 
这 很 好 理解 ,被 预测 出 错 的 人 数 越 多 , 错 得 越 离谱 , 均 方差 就 越 大 ,通过 最 小 化 均 方 差 能 够 找 
到 最 靠 谱 的 分 支 依据 。 分 支 直 到 每 个 叶子 结 点 上 人 的 年 龄 都 唯一 或 者 达到 预 设 的 终止 条 件 
(如 叶子 个 数 上 限 ); 若 最 终 叶 子 结 点 上 人 的 年 龄 不 唯一 , 则 以 该 结 点 上 所 有 人 的 平均 年 龄 
作为 该 叶子 结 点 的 预测 年 龄 。 

2. GB(Gradient Boosting. t% JZ 3x 4%) 

Boosting . i & . Ei iH xb i f & PR BY OK SE E ue GE. GBDT 的 核心 就 在 于 ,每 一 棵 树 学 的 
是 之 前 所 有 树 结 论 和 的 残 差 ,这 个 残 差 就 是 一 个 加 预测 值 后 能 得 真实 值 的 累加 量 。 例 如 A 
的 真实 年 龄 是 18 岁 ,但 第 一 棵 树 的 预测 年 龄 是 12 岁 , 差 了 6 岁 , 即 残 差 为 6 岁 。 那 么 在 第 
二 棵 树 里 ,可 把 A 的 年 龄 设 为 6 岁 去 学 习 。 如 果 第 二 棵 树 真 的 能 把 A 分 到 6 岁 的 叶子 结 
点 , 那 累 加 两 棵 树 的 结论 就 是 A 的 真实 年 龄 ; 如 果 第 二 棵 树 的 结论 是 5 岁 , 则 A 仍然 存在 1 
岁 的 残 差 ; 第 三 棵 树 里 ,A 的 年 龄 就 变 成 1 岁 ,继续 学 。 这 就 是 Gradient Boosting 在 GBDT 
中 的 意义 。 

还 是 年 龄 预测 ,简单 起 见 , 训 练 集 只 有 4 个 人 ,A、B、C 和 DD, 他们 的 年 龄 分 别 是 14、16、 
24 和 26。 其 中 A.B 分 别 是 高 一 和 高 三 学 生 ; C.D 分 别 是 应 届 毕 业 生 和 工作 两 年 的 员工 。 
如 果 是 用 一 棵 传统 的 回归 决策 树 来 训练 ,会 得 到 如 图 2-10 所 示 结 果 。 
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图 2-10 传统 回归 决策 树 训练 结果 


现在 我 们 使 用 GBDT 做 这 件 事 , 由 于 数据 太 少 ,可 限定 叶子 结 点 最 多 有 两 个 , 即 每 棵 树 
都 只 有 一 个 分 支 ,并 且 限 定 只 学 两 棵 树 。 将 会 得 到 如 图 2-11 所 示 结 果 。 

图 2-11 中 的 第 一 棵 树 分 支 和 图 2-10 一 样 ,由 于 ALB 年 龄 较为 相近 ,C.D 年 龄 较为 相 
近 , 被 分 为 两 拨 , 每 拨 用 平均 年 龄 作为 预测 值 。 残 差 的 意思 就 是 : A 的 预测 值 十 A 的 残 差 一 
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经 常 到 百度 知道 提问 
购物 金额 >1000 


购物 金额 三 1000, 经 常 到 百度 知道 回答 


HR: A=-1, B=1 HEF: C=-1, D=1 残 差 : A=0, C=0 Jk% : B=0, D=0 


图 2-11 GBDT 结果 图 


A 的 实际 值 。 此 时 计算 残 差 ,A 的 残 差 就 是 16 一 15= 二 1。 进 而 得 到 A、B、C.D 的 残 差 分 别 为 
一 1.1 .一 1.1。 然 后 用 残 差 蔡 代 A BCD 的 原 值 ,到 第 二 棵 树 去 学 习 。 如 果 我 们 的 预测 值 
和 它们 的 残 差 相等 , 则 只 需 把 第 二 棵 树 的 结论 累加 到 第 一 棵 树 上 就 能 得 到 真实 年 龄 了 。 当 
所 有 人 的 残 差 都 是 0 时 , 即 每 个 人 都 得 到 了 真实 的 预测 值 。 换 句 话说 ,现在 A、B、C.D 的 预 
测 值 都 和 真实 年 龄 一 致 了 : 

。 A: 14 岁 高 一 学 生 , 购 物 较 少 , 经 常 到 百度 知道 提问 ; 预测 年 龄 A—15—1—14. 

* Bi 16 岁 高 三 学 生 ; 购物 较 少 ,经 常 到 百度 知道 回答 ; 预测 年 龄 B=15+1=16, 

* C: 24 岁 应 届 毕 业 生 ; 购物 较 多 ,经 常 到 百度 知道 提问 ; 预测 年 龄 C 一 25 一 1 一 24。 

* D: 26 岁 工 作 两 年 员工 ; 购物 较 多 ,经 常 到 百度 知道 回答 ; 预测 年 龄 D=25+1=26, 


2.8 特征 提取 














2.8.1 特征 提取 简介 


特征 提取 就 是 利用 已 有 特征 参数 构造 一 个 较 低 维 数 的 特征 空间 ,将 原始 特征 中 蕴含 的 
有 用 信息 映射 到 少数 几 个 特征 上 ,忽略 多 余 的 不 相干 信息 。 简 单 点 说 ,特征 提取 是 用 映射 
(或 变换 ) 的 方法 把 原始 特征 变换 为 较 少 的 新 特征 。 特 征 提 取 的 方法 有 很 多 种 ,如 传统 的 特 
征 提 取 的 数据 挖掘 技术 、 统 计 特征 提取 技术 、 神 经 网 络 法 等 。 


2.8.2 DKLT 特征 提取 方法 


特征 提取 的 方法 很 多 ,下 面 以 基于 离散 K-L 变换 (DKLT) 的 特征 提取 为 例 进 行 介 绍 ， 
其 他 方法 与 此 类 似 。 

设 原始 特征 为 N AER EX = (zi'rz,…:zrw)7, 均 值 矢量 严 一 已 [LX] ,相关 和 矩阵 Rx — 
EXX? ]. Ji 2858 PE Cx — E[ CX—m) CX—m)? ].. TAX X fe ün F if s ie 1E Ac E dud 
其 变 为 矢量 Y= (yi, ys， … ys": 

Ti 
Ti 


Y=TX= X (2-12) 


TX 
式 (2-12) 的 每 个 分 量 : y, — T7X ,其 中 T 了 为 一 个 NXN 的 标准 正 交 和 矩阵 ,T 为 其 第 i 个 


i 2% 
rei TET =| T. 也 就 是 说 ,Y 的 每 个 分 量 是 XX 每 一 个 分 量 的 线性 组 合 。 
0, iFj 


同样 ,X 可 以 表示 为 


N 
K=(T)"Y=TY=(T, T … Ty) |", |= yT: (2-13) 


YN 
此 时 要 进行 特征 提取 ,也 就 是 要 用 Y 的 M 项 代替 头 , 这 种 代 蔡 必然 带 来 误差 ,下 面 对 这 
个 误差 进行 估计 。 
M 


$= Y) yiTi,1<M<N, 


i=l 


引入 的 均 方 误差 为 
N N 
&(M)= E[(X —O'(x— 3]2. YE I= D ELyy?] 
i=M+1 i=M+1 











N N 
= M TELXXT]T = >) TIRxT, (2-14) 
i=M+1 i=M+1 


dà MRM — ^ OE 1 ie 8. RAIT 38 FAR E — 7S ps HE IE 28 ETS AEI e? CM) th DSL UG 
可 以 去 使 用 这 样 的 准则 函数 : 





J= $Í TIRxT; 一 ES ACT; — 1) (2-15) 
第 一 项 保证 均 方 误差 最 小 ， 第 二 -项 保证 下 为 标准 正 交 矩阵 ,为 一 待定 常数 。 
E (Rx ADT, =0, i M-L,MH 2, N (2-16) 








BI RxT; —A;T; ,很 明显 Ai ARE R x 的 特征 值 ,Ti 为 对 应 于 4; 的 特征 矢量 ,由 于 Rx 是 
一 个 实 对 称 和 矩阵 ,所 以 Ti Tz oes Ty 相互 正 交 ,T 为 一 个 正 交 和 矩阵。 均 方 误差 


N N 


N 
e(M)= >) TRxT: = >) TAT: = >A (2-17) 
MH i=M+1 


根据 矩阵 论 , 有 这 样 的 结论 : 一 个 NX N I IE SE SES BR EE AON 个 特征 值 和 特征 矢 
量 ,这 些 特征 矢量 之 间 是 正 交 的 。 相 关 和 矩阵 Rx 就 是 一 个 实 对 称 和 矩阵 , 当 训练 样本 足够 多 
时 ,也 可 以 满足 正定 性 ,根据 式 (2-12) 可 以 知道 , 当 要 从 N 维特 征 中 提取 出 M 维特 征 时 ,只 
需要 统计 出 特征 相关 矩阵 Rx ,然后 计算 其 特征 值 和 特征 矢量 ,选择 对 应 特征 值 最 大 的 前 M 
个 特征 矢量 作成 一 个 NXM 特征 变换 矩阵 工 , 就 可 以 完成 特征 提取 。 步 骤 如 下 : 

CD 利用 训练 样本 集合 估计 出 相关 矩阵 Rx = ELXX™ ]. 

(2) 计算 Rx 的 特征 值 , 并 由 大 到 小 排序 : A SA2o San ARA TE E: Ti, 
Ti... Ty. 

(3) 选择 前 M 个 特征 矢量 组 成 一 个 变换 矩阵 T=[T， T; … Tu]. 

(4) 在 训练 和 识别 时 .每 一 个 输入 的 N 维特 征 矢量 半 可 以 转换 为 M 维 的 新 特征 矢量 : 
Y-T'X, 

RR JE VE Ae A FA OB E Rx 进行 变换 。 同 样 ,也 可 以 利用 协 方差 矩阵 Cx 进行 变换 ， 
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还 可 以 利用 样本 的 散 度 和 矩阵 Sw .Sa 、Sr 或 者 Sw Ss 进行 变换 。 过 程 都 是 一 样 的 ,需要 计算 
特征 值 和 特征 向 量 , 选 择 最 大 的 M 个 特征 值 对 应 的 特征 矢量 作出 变换 矩阵 。 


2.8.3 主 成 分 分 析 法 


l. 主 成 分 分 析 的 原理 

在 用 统计 分 析 方 法 研究 多 变量 的 课题 时 ,变量 个 数 太 多 就 会 增加 课题 的 复杂 性 。 人 们 
自然 希望 变量 个 数 较 少 而 得 到 的 信息 较 多 。 在 很 多 情形 下 ,变量 之 间 是 有 一 定 的 相关 关系 
的 。 当 两 个 变量 之 间 有 一 定 相关 关系 时 ,可 以 解释 为 这 两 个 变量 反映 此 课题 的 信息 有 一 定 
的 重合。 主 成 分 分 析 是 对 于 原先 提出 的 所 有 变量 ,将 重复 的 变量 (关系 紧密 的 变量 ) 删 去 多 
余 的 ,建立 尽 可 能 少 的 新 变量 ,使 得 这 些 新 变量 是 两 两 不 相关 的 ,而 且 这 些 新 变量 在 反映 课 
题 的 信息 方面 尽 可 能 地 保持 原 有 的 信息 。 

定义 : 设法 将 原来 变量 重新 组 合成 一 组 新 的 互相 无 关 的 综合 变量 ,同时 根据 实际 需要 
从 中 取出 较 少 的 综合 变量 、 尽 可 能 多 地 反映 原来 变量 的 信息 的 统计 方法 叫做 主 成 分 分 析 或 
称 主 分 量 分 析 , 也 是 数学 上 降 维 的 一 种 方法 。 

主 成 分 分 析 也 称 主 分 量 分 析 , 旨 在 利用 降 维 的 思想 ,把 多 指标 转化 为 少数 几 个 综合 指 
标 。 在 统计 学 中 , 主 成 分 分 析 (Principal Components Analysis. PCA) 是 一 种 简化 数据 集 的 
技术 , 它 是 一 种 线性 变换 方法 。 这 个 变换 把 数据 变换 到 一 个 新 的 坐标 系统 中 ,使 得 任何 数据 
投影 的 第 一 大 方差 在 第 一 个 坐标 ( 称 为 第 一 主 成 分 ) 上 ,第 二 大 方差 在 第 二 个 坐标 (第 二 主 成 
分 ) 上 ,依次 类 推 。 主 成 分 分 析 经 常用 减少 数据 集 的 维 数 ,同时 保持 数据 集 的 对 方差 贡献 最 
大 的 特征 。 这 是 通过 保留 低 阶 主 成 分 ,忽略 高 阶 主 成 分 做 到 的 。 这 样 低 阶 成 分 往往 能 够 保 
留 住 数据 的 最 重要 方面 。 

2. 主 成 分 分 析 的 主要 作用 

概括 起 来 说 , 主 成 分 分 析 主 要 有 以 下 方面 的 作用 。 

(1) 主 成 分 分 析 能 降低 所 研究 的 数据 空间 的 维 数 。 即 用 研究 m 维 的 Y RRE p HE 
的 X 空间 Gm 过 p) ,而 低 维 的 Y 空间 代替 高 维 的 zx 空间 所 损失 的 信息 很 少 。 即 使 只 有 一 个 
ERI YE m=D E EY 仍 是 使 用 全 部 X 变量 (p 个 ) 得 到 的 。 例 如 ,要 计算 Yi 的 均 
值 也 得 使 用 全 部 zz 的 均值 。 在 所 选 的 前 m 个 主 成 分 中 ,如 果 某 个 Xi 的 系数 全 部 近似 于 零 
的 话 ,就 可 以 把 这 个 X: 删除 ,这 也 是 一 种 删除 多 余 变量 的 方法 。 

(2) 有 时 可 通过 因子 负荷 a; 的 结论 , 弄 清 X 变量 间 的 某 些 关系 。 

G) 多 维 数据 的 一 种 图 形 表示 方法 。 我 们 知道 , 当 维 数 大 于 3 时 便 不 能 画 出 几何 图 形 ， 
多 元 统计 研究 的 问题 大 都 多 于 3 个 变量 。 要 把 研究 的 问题 用 图 形 表示 是 不 可 能 的 。 然 而 ， 
经 过 主 成 分 分 析 后 ,可 以 选取 前 两 个 主 成 分 或 其 中 某 两 个 主 成 分 ,根据 主 成 分 的 得 分 , 画 出 
nn 个 样品 在 二 维 平面 上 的 分 布 情况 ,由 图 形 可 直观 地 看 出 各 样品 在 主 分 量 中 的 地 位 ,进而 还 
可 以 对 样本 进行 分 类 处 理 ,可 以 由 图 形 发 现 远 离 大 多 数 样本 点 的 离 群 点 。 

(4) 由 主 成 分 分 析 法 构造 回归 模型 。 即 把 各 主 成 分 作为 新 自 变 量 代 蔡 原来 自 变量 x 做 
归 分 析 。 

(5) 用 主 成 分 分 析 和 筛选 回归 变量 。 回 归 变 量 的 选择 有 重要 的 实际 意义 ,为 了 使 模型 本 
身 易于 做 结构 分 析 、 控 制 和 预报 ,以 便 从 原始 变量 所 构成 的 子 集合 中 选择 最 佳 变量 ,构成 最 
佳 变量 集合 。 用 主 成 分 分 析 筛 选 变量 ,可 以 用 较 少 的 计算 量 选择 量 , 获 得 选择 最 佳 变 量子 集 
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合 的 效果 。 
3. 主 成 分 分 析 的 计算 步骤 
(1) 对 原始 数据 进行 标准 化 。 





na MEK 
i S; 
(2) 计算 相关 系数 矩阵 。 
ru rn Tip 
R= ra ro r2p 
M M M 


Tp Vy °° Tø 


rj G.j71.2. p) J4 AE i 与 x; 的 相关 系数 ,rj 二 ri ,其 计算 公式 为 
> zn — x0 Gn —zp) 
k=1 
Tä = n n 
Je — zx)’ (ay — z)? 
i i-i 
CD 计算 特征 值 与 特征 向 量 。 


解 特征 方程 141 一 RI|==0, 常 用 雅 可 比 法 (Jacobi) 求 出 特征 值 ,并 使 其 按 大 小 顺序 排列 : 
和 1 三 2 宇 A 宇 Ap 宇 0。 分 别 求 出 对 应 于 特征 值 A; 的 特征 向 量 ei(i 二 1,2,…,p), 要 求 , l| eil = 


b 

1,8] 7 flees SER UE e; 的 第 j 个 分 量 。 
j=1 
计算 主 成 分 贡献 率 及 累计 贡献 率 。 

















RRR: 
Ài og; 
; ht = l;2 p) 
Dade 
k=1 
累计 贡献 率 ， 
SMa 
z (i= 1,2,.,p) 
9 


k=1 
一 般 取 累 计 贡 献 率 达 85 26 — 95 26 AE TIE AE Ai Ao tt Am 所 对 应 的 第 1, 第 2,…, 第 mOn 
思 ) 个 主 成 分 。 计 算 主 成 分 载荷 为 
lj = p.c) = Vasey (inj = 1.2.7.) 
(4) 各 主 成 分 的 得 分 。 


Zu zo Zim 
Za Zz 22m 
Z= 
M M M 
Xm o Xo 7t Em 


[52.12] 在 某 中 学 随机 抽取 某 年 级 30 名 学 生 , 测 量 其 身高 (Xi)、 体 重 (X*)、 胸 围 
Xa) RU A fet OX.) ,数据 如 表 2-8 所 示 。 试 对 这 30 名 学 生 身 体 4 项 指标 数据 做 主 成 分 分 析 。 
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表 2-8 学 生 数 据 表 


























































































































序号 Xx X: X: X 

1 148 41 72 78 

2 139 34 71 76 

3 160 49 77 86 

4 149 36 67 79 

5 159 45 80 86 

6 142 31 66 76 

153 43 76 83 

8 150 43 77 79 

9 151 42 71 80 

10 139 31 68 74 

11 140 29 64 74 

12 161 47 78 84 

13 158 49 78 83 

14 140 33 67 77 

15: 137 31 66 73 

16 152 35 73 79 

17 149 47 82 79 

18 145 35 70 77 

19 160 47 74 87 

20 156 44 78 85 

21 151 42 73 82 

22 147 38 73 78 

23 157 39 68 80 

24 147 30 65 75 

25 157 48 80 88 

26 151 36 74 80 

27 144 36 68 76 

28 141 30 67 76 

29 139 32 68 73 

30 148 38 70 78 

解 H 
COD 将 原 数据 标准 化 ,结果 如 表 2-9 所 示 。 
表 2-9 标准 化 结果 表 
序号 X X: Xs X, 

1 一 0. 136 695 161 0. 356 024 855 —0. 045 301 137 —0. 319 998 136 
2 —1. 366 951 609 —0. 727 529 052 —0. 239 448 866 —0. 788 288 091 
3 1. 503 646 77 1.594 372 177 0. 925 437 51 1. 553 161 683 
4 0 一 0. 417 942 221 — 1. 016 039 784 —0. 085 853 158 
5 1. 366 951 609 0. 975 198 516 1. 507 880 699 1.553 161 683 
6 — 0. 956 866 126 — 1. 191 909 297 — 1. 210 187 513 —0. 788 288 091 

















续 表 

























































































序号 x X; X; X 

0.546 780 644 0. 665 611 686 0. 731289 781 0. 850 726 751 
8 0.136 695 161 0. 665 611 686 0. 925 437 51 —0. 085 853 158 

0. 273 390 322 0.510 818 27 0.925 437 51 0.148 291 819 
10 — 1.366 951 609 — 1. 191 909 297 — 0. 821 892 055 — 1. 256 578 045 
T — 1. 230 256 448 — 1. 501 496 128 — 1.598 482 972 — 1. 256 578 045 
12 1.640 341 931 1. 284 785 347 1.119 585 24 1. 084 871 729 
13 1. 230 256 448 1.594 372 177 1.119 585 24 0.850 726 751 
14 — 1. 230 256 448 — 0. 882 322 467 — 1. 016 039 784 —0. 554 143 113 
15 — 1.640 341 931 — 1. 191 909 297 — 1. 210 187 513 — 1. 490 723 023 
16 0.410 085 483 — 0.572 735 636 0. 148 846 593 — 0. 085 853 158 
17 0 1. 284 785 347 1. 896 176 157 —0. 085 853 158 
18 — 0.546 780 644 — 0.572 735 636 — 0. 433 596 596 —0. 554 143 113 
19 1.503 646 77 1. 284 785 347 0. 342 994 322 1. 787 306 661 
20 0.956 866 126 0. 820 405 101 1. 119 585 24 1. 319 016 706 
21 0.273 390 322 0. 510 818 27 0. 148 846 593 0.616 581 774 
22 — 0. 273 390 322 一 0. 108 355 391 0. 148 846 593 — 0. 319 998 136 
23 1.093 561 287 0. 046 438 025 — 0. 821 892 055 0. 148 291 819 
24 一 0. 273 390 322 — 1. 346 702 713 — 1. 404 335 243 — 1. 022 433 068 
25 1.093 561 287 1.439 578 762 1. 507 880 699 2.021 451 638 
26 0.273 390 322 —0. 417 942 221 0. 342 994 322 0. 148 291 819 
27 — 0. 683 475 804 —0. 417 942 221 — 0. 821 892 055 — 0. 788 288 091 
28 — 1.093 561 287 — 1. 346 702 713 — 1. 016 039 784 — 0. 788 288 091 
29 — 1.366 951 609 — 1. 037 115 882 — 0. 821 892 055 — 1. 490 723 023 
30 — 0.136 695 161 — 0. 108 355 391 — 0. 433 596 596 — 0. 319 998 136 


(2) iE SERIE He BIE R, 结 果 如 表 2-10 所 示 。 
2-10 相关 系数 矩阵 及 
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0. 863 162 113 


0. 732 111 865 


0. 920 462 372 





0. 863 162 113 


1 


0. 896 505 818 


0. 882 731 322 





0. 732 111 865 


0. 896 505 818 


1 


0. 782 882 687 





0. 920 462 372 





0. 882 731 322 





0. 782 882 687 


1 





(3) 计算 R 的 特征 值 与 特征 应 


表 2-11 R 的 


量 ,结果 如 表 2-11 所 示 。 


特征 值 和 特征 向 量 





特 征 ffl 


特征 向 量 


3b WAR 率 


累计 贡献 率 





3.541 097 997 123 670 


0. 496 966 052 351 995 
0. 514 570 529 399 596 
0. 480 900 669 540 801 
0. 506 928 455 621011 


0. 885 274 499 280 918 





0. 885 274 499 280 918 
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续 表 





特 征 值 


特征 向 量 


E 


累计 贡献 率 





0.313 383 157 524 193 


0.543 212 790 179 508 
一 0. 210 245 502 738 495 
一 0.724 621 401 674 931 

0. 368 294 063 756 518 


0. 078 345 789 381 048 


0. 963 620 288 661 966 





0.079 408 953 634 330 


0. 449 627 089 002 508 
0. 462 330 027 666 850 
.175 176 510 644 185 
. 743 908 338 756 347 


0. 019 852 238 408 582 


0. 983 472 527 070 548 





0.079 408 953 634 330 








0. 505 747 059 536 879 
. 690 843 646 832 788 
0. 461 488 418 476 992 
. 232 343 295 604 110 








0. 016 527 472 929 452 








(4) 主 成 分 分 析 结 果 如 表 2-12 所 示 。 



































表 2-12 例 2-12 结果 表 
Eigenvalue of the Correlation Matrix 

Eigenvalue Difference Proportion Cumulative 
Zi 3.5411 3. 227 71 0. 885 274 0. 885 27 
Z: 0. 313 38 0. 233 97 0. 078 346 0. 963 62 
Z; 0.079 41 0. 0133 0. 019 852 0. 983 74 
Z 0.066 11 0. 016 527 1 

Eigenvectors 
A Z Zs Z 

Xx 0. 496 966 一 0. 543 213 — 0. 449 627 0.505 747 
X 0.514 571 0. 210 246 —0. 462 33 —0. 690 844 
X; 0. 480 901 0. 724 621 0.175 177 0.461 488 
X, 0. 506 928 一 0. 368 294 0. 743 908 — 0. 232 343 














经 分 析 可 知 ,第 一 主 成 分 的 贡献 率 已 高 达 88.53%; 且 前 两 个 主 成 分 的 累计 贡献 率 已 达 
96. 36%。 因 此 只 需 用 两 个 主 成 分 就 能 很 好 地 概括 这 组 数据 。 
【 例 2.13】 为 解决 服装 定型 分 类 问题 ,对 128 个 成 年 男子 的 身材 进行 测量 ,每 人 各 测 
得 16 项 指标 : 身高 (Xi)、 坐 高 (X;)、 胸 围 (X,)、 头 高 (Xs)、 裤 长 (Xs)、 下 档 (X。)、 手 长 (Xi)、 
领 围 (Xs ) 、 前 胸 (Xs)、 后 背 (Xio)、 肩 厚 (X11)、 肩 宽 (Xiz)、 袖 长 (Xis)、 肋 围 (X14)、 腰 围 (Xis) 




















和 腿 肚 CXis )。16 项 指标 的 相关 和 矩 阵 R 如 表 2-13 所 示 。 试 从 相关 和 矩阵 R 出 发 进行 主 成 分 析 。 
表 2-13 16 项 指标 的 相关 和 矩阵 

1 |0.79|0.36|0.96 |0.89|o.79|0.76| 0.2 [0.21 | 0.26 | 0.07 | 0.52 | 0. 77 | 0. 25 | 0. 51 | 0.27 
0.79 |1  [|0.31|0.74 |0.58 | 0.58 | 0.55 | 0. 19|0.07 | 0. 16 | 0.21 | 0. 41 | 0. 47 | 0. 17 | 0.35 | 0. 16 
0.36 |0.31|1 |0.38|0.39|0.3 |0.35 | 0.53] 0. 28 | 0. 33 | 0. 33 | 0. 35 | 0.41 | 0.64 | 0.53 | 0.51 
0.96|0.74|0.38|1  |0.9 |0.78]0.75| 0.25|0.2 |0.22|0.03 | 0.53 | 0.79 | 0.27 | 0.57 | 0.26 
0.89|0.58|0.39|0.9 |1  |o.79|0.74 | 0.25|0.18 | 0.23 | 0.02 | 0. 48 | 0. 79 | 0. 27 | 0.51 | 0.23 
0.79 |0.58|0.3 |0.78|0.79|1  |o.73| 0.18|0.18|0.23|O — |0.38]|0.69 | 0.14 |0.26| 0 










































































































































































0.76 |0.55|0.35|0.75 |0.74|0. 73 | 1 0.24|0.29|0.25 | 0.1 |0.44| 0.67 | 0.16 |0.38 | 0.12 
0.2 |0.19|0.53|0.25|0.25|0.18|0.24|1 0.04 |0.49 | 0. 44| 0.3 | 0.32] 0.51]0.51] 0.38 
0.21/|0.07|0.28/|0.2 |0.18/0.18/|0.29|0.04|1 0.34 | 0. 16| 0. 05 | 0.23 | 0. 21 | 0. 15 | 0.18 
0.26 |0.16 | 0. 33 | 0. 22 | 0. 23 | 0. 23 | 0. 25 | 0. 49 | 0. 34 | 1 0.23|0.5 | 0.34] 0.15 | 0.29] 0.16 
0.07 | 0.21] 0. 33 | 0. 03 | 0. 02 | 0 0.1 |0.44|10.16 |0.23 | 1 0.24|0.1 | 0.31] 0.28] 0.31 
0.52 | 0.41] 0.35 | 0.53 | 0. 48 | 0.38 | 0.44 | 0.3 |0.05|0.5 | 0.24|1 0.26 | 0. 17 | 0. 41 | 0.18 
0.77 | 0.47 | 0.41 | 0.79 | 0.79 | 0. 69 | 0. 67 | 0. 32 | 0. 23 | 0.34 | 0.1 | 0.26) 1 0.26 |0.5 | 0.24 
0.25 | 0.17 | 0.64 | 0. 27 | 0.27 | 0.14 | 0. 16 | 0. 51 | 0. 21 | 0. 15 | 0. 31| 0. 17 | 0.26 | 1 0.63 | 0.6 
0.51 | 0.35 | 0.53 | 0.57 | 0. 51 | 0. 26 | 0. 38 | 0. 51 | 0. 15 | 0.29 | 0. 28| 0.41 | 0.5 |0.63 11 0.65 
0.27 | 0.16] 0.51] 0. 26 |0.23|0 0.12 | 0.38) 0.18 | 0.16] 0.31] 0.18] 0.24)0.6 | 0.65} 1 
f 
CD 计算 R 的 特征 值 与 特征 向 量 ,结果 如 表 2-14 所 示 。 
表 2-14 R 的 特征 值 和 特征 向 量 
特 征 值 特征 向 量 贡 献 率 累计 贡献 率 

7.026 988 165 580 851 a 0. 439 186 760 348 803 0.439 186 760 348 803 

2. 610 949 504 017 831 a2 0. 163 184 344 001 114 0.602 371 104 349 918 

1. 256 052 954 980 407 as 0. 078 503 309 686 275 0.680 874 414 036 193 

1. 075 957 911 392 807 ay 0. 067 247 369 462 050 0. 748 121 783 498 243 

0. 810 001 892 009 548 as 0. 050 625 118 250 597 0.798 746 901 748 840 

0. 721 673 303 235 005 a5 0. 045 104 581 452 188 0. 843 851 483 201 028 

0. 551 659 711 389 439 a7 0. 034 478 731 961 840 0. 878 330 215 162 868 

0. 441 153 346 295 936 ag 0. 027 572 084 143 496 0. 905 902 299 306 364 

0. 357 955 863 495 994 as 0. 022 372 241 468 500 0.928 274 540 774 863 

0. 315 999 976 046 852 aio 0. 019 749 998 502 928 0.948 024 539 277 792 

0. 270 110 386 602 250 an 0. 016 881 899 162 641 0. 964 906 438 440 432 

0. 214 633 290 025 143 az 0. 013 414 580 626 571 0.978 321 019 067 004 

0. 170 917 038 154 843 ais 0. 010 682 314 884 678 0. 989 003 333 951 682 

0. 108 839 551 007 951 au 0. 006 802 471 937 997 0.995 805 805 889 678 

0. 044 498 936 495 054 ais 0. 002 781 183 530 941 0. 998 586 989 420 619 

0. 022 608 169 270 089 ais 0. 001 413 010 579 381 1.000 000 000 000 000 


经 分 析 可 知 ,前 7 个 主 成 分 的 累计 贡献 率 达 87. 83%%, 则 只 需 用 前 7 个 主 成 分 就 能 很 好 











地 概括 这 组 数据 。 其 中 ,前 7 个 特征 向 量 如 下 (向 量 的 各 分 量 取 两 位 有 效 数字 )。 
al = [0. 34,0. 26.0. 24.0. 34,0. 33.0. 29,0. 30.0. 19.0. 11.0. 17.0. 10. 
0. 23.0. 31.0. 18.0. 27.0. 17] 





a, = [—0. 21, — 0. 16,0. 30, — 0. 20, — 0. 19, — 0. 28, — 0. 19,0. 35,0. 08,0. 16, 
0. 33.0. 01, — 0. 11.0. 39,0. 26.0. 38] 
as = (0. 08.0. 05,0. 04,0. 12.0. 10. — 0.04, — 0.08, — 0. 18. — 0. 27. — 0. 64, — 0. 23. 


— 0. 35. 0. 04,0. 30. 0. 23,0. 33] 
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a: = (0.03.0. 24. — 0. 11.0.03. — 0.02. — 0.05. — 0.10. 0.23, — 0. 79. — 0.05. 0.19, 
0.39. —0.16. — 0. 11. 0.07. —0. 07] 
as 一 [— 0.07, — 0.43. 0.02. 0.01. 0.12, 0, — 0.08. 0.19. — 0. 23, 0.34, — 0. 71. 
0. 11. 0.15.0. 04. 0.18. 0.02] 
as = [一 0.12, —0. 11. 0.12. — 0.09. 0.03. 0.25. 0. 11. 0.50. 一 0.22, —0.07. 
0. 18. — 0.52. 0. 33.0.07. — 0. 20. — 0. 34] 
a; = [0.07. — 0.09, —0.60. 0.06.0.03, — 0. 19, — 0.05.0. 06. — 0.01.0. 18. 
0. 24. — 0. 27,0. 35, — 0. 34,0. 30.0. 30] 
(2) 计算 第 1.2 主 成 分 DZ, Zo ,对 原 指 标 Xi ,X:,…, Xi 的 主 成 分 载荷 ,结果 如 表 2-15 
所 示 。 





表 2-15 主 成 分 载荷 表 






























































Z Z 
x 0.440 662 384 0. 614 328 092 
X: 0. 703 937 826 0. 420 337 516 
X, 0.488 426 068 0. 632 583 048 
X, 0.810 372 245 —0. 190 280 771 
x 0. 600 691 944 0. 028 659 619 
Xs 0. 268 383 694 0. 536 230 09 
X; 0. 440 619 647 0. 264 072 45 
Xx 0.304 152 079 0. 136 911 212 
X, 0.493 884 177 0.571 370 007 
Xio 0. 783 623 052 —0. 312 985 149 
Xu 0. 757 309 471 — 0. 448 824 046 
Xs 0.872 558 388 —0. 310 344 275 
Xs 0.910 014 643 —0. 317 361 241 
Xu 0.624 636 016 0. 491 385 415 
Xv 0. 701 430 41 一 0. 256 342 858 
Xu 0.905 170 99 —0. 337 025 726 
K 2-15 对 应 的 散 点 图 如 图 2-12 所 示 。 
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图 2-12 散 点 图 


分 析 可 知 ,16 个 指标 可 分 为 三 类 。 第 1 类 为 “长 ”指标 : 身高 (Xi)、 坐 高 (Xs*)、 头 高 
CX.) BEI OX FOX EAE OX )、 袖 长 (Xis); 第 2 类 为 “ 围 ? 指 标 : 胸围 (X;)、 领 围 
(Xs) .前 胸 (Xs)、 肩 厚 (X11)、 肋 围 (Xis)、 腰 围 (Xis) 和 腿 肚 (X16); 第 3 类 为 特殊 体型 指标 
前 胸 (Xs)、 后 背 (X1o)、 肩 宽 (Xiz)。 


2.9 基于 阿里 云 数 加 平台 的 数据 采样 与 特征 选择 实例 


数据 采样 的 目的 是 从 数据 集中 采集 部 分 样本 进行 处 理 , 分 为 加 权 采 样 、 随 机 采样 和 分 层 
采样 三 类 ,其 中 ,加 权 采 样 通过 对 总 体 中 的 各 个 样本 设置 不 同 的 数值 系数 ( 即 加 权 因 子 - 权 
重 ) ,使 样本 呈现 希望 的 相对 重要 性 程度 ; 随机 采样 是 简单 随机 抽样 ,要 求 结果 样本 具有 随 
机 性 、 独 立 性 ; 分 层 采样 将 总 体 划 分 为 若干 个 同 质 层 ,再 在 各 层 内 随机 抽样 或 机 械 抽样 。 而 
过 滤 与 映射 则 是 设置 条 件 , 选 择 自己 需要 的 样本 。 例 如 50 个 人 中 ,需要 选择 年 龄 小 于 20 岁 
的 样本 , 便 可 由 过 滤 与 映射 的 方法 来 实现 。 对 于 表 bank data 分 别 进行 加 权 采 样 、 随 机 采 
样 , 分 层 采样 ,过滤 与 映射 4 种 数据 预 处 理 方法 的 操作 与 结果 显示 如 下 。 

1. 加 权 采 样 

阿里 云 机 器 学 习 平 台 对 于 加 权 采 样 的 说 明 为 : 以 加 权 方 式 生 成 采样 数据 ; 权重 列 必须 
Wy double 或 int 类 型 ,按照 该 列 的 value 大 小 采样 ; 如 col 的 值 是 1. 2 和 1. 0, 则 “value 一 
1.2” 所 属 的 样本 被 采样 的 概率 就 大 一 些 。 即 权重 列 某 一 个 值 n 的 数量 较 多 的 话 , 该 列 为 nn 
值 的 样本 被 采样 的 数量 也 应 更 多 。 操 作 流程 图 如 图 2-13 所 示 , 表 bank data 中 有 一 个 列 名 
为 campaign, 表 示 本 次 活动 的 联系 次 数 .我 们 以 这 列 为 权重 列 , 进 行 加 权 采 样 。 采 样 前 后 分 
别 使 用 “ 百 分 位 ”方法 进行 对 比 。 

加 权 采 样 参数 设置 图 如 图 2-14 所 示 , 其 中 link 函数 指数 表示 采样 比例 ,与 采样 个 数 二 
选 一 即 可 ,这 里 使 用 的 采样 比例 为 0.5。 连 接 类 型 表示 随机 种 子 数 ,随机 种 子 是 一 种 以 随机 
数 作为 对 象 的 以 真 随机 数 (种 子 ) 为 初始 条 件 的 随机 数 ,是 一 个 计算 机 专业 术语 。 这 里 选择 
的 是 2, 也 可 以 选择 默认 值 。 
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这 里 使 用 柱 形 图 表示 实验 结果 ,对 原 表 统计 campaign 的 结果 如 图 2-15 所 示 , 最 小 值 为 
1, 最 大 值 为 56, 但 数值 为 1 和 2 的 最 多 , 约 占 66%。 





campaign ow Wu E 
mmm 


S RE TE EE 








图 2-15 X bank data 中 的 campaign 列 百 分 位 图 


击 “ 百 分 位 ”, 选 择 “ 查 看 分 析 报 告 "。 加 权 采 样 后 的 结果 如 图 2-16 所 示 , 最 小 值 为 1， 
最 大 值 为 14, 值 为 1 和 2 的 样本 所 占 的 比例 比 之 前 要 更 高 , 约 占 84 贤 。 由 此 可 见 , 这 里 应 该 
使 用 的 是 采用 因子 加 权 , 用 于 提高 样本 中 具有 某 种 特性 的 被 访 者 的 重要 性 。 
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FA 2-16 加权 采样 后 campaign 列 百 分 位 图 


2. 随机 采样 

阿里 云 机 器 学 习 平 台 对 于 随机 采样 的 说 明 为 : 以 随机 方式 生成 采样 数据 ,每 次 采样 是 
各 自 独 立 的 。 其 操作 流程 图 如 图 2-17 所 示 。 

因此 ,其 参数 设置 只 需要 采样 比例 即 可 ,这 里 选择 的 是 0.5, 如 图 2-18 所 示 。 
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图 2-17 随机 采样 操作 流程 图 图 2-18 随机 采样 参数 设置 图 


其 实验 结果 也 是 选择 campaign 列 呈现 。 如 图 2-19 所 示 , 最 小 值 为 1, 最 大 值 为 43, 数 
值 1 和 2 i A] 66%, 与 原始 数据 基本 一 样 ,体现 其 随机 性 。 
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图 2-19 随机 采样 后 campaign 列 百 分 位 图 


3. 分 层 采样 

阿里 云 平台 对 于 分 层 采 样 的 说 明 为 : 根据 用 户 指 定 的 分 组 字段 分 层 采样 样本 。 这 里 选 
择 表 bank_data 中 的 housing 列 , 表 示 房 贷 有 无 ,数值 只 有 yes 和 no 两 种 ,这 就 相当 于 分 两 
层 来 取样 ,其 操作 流程 图 如 图 2-20 所 示 。 

其 字段 设置 选择 某 一 列 , 按 该 列 进行 分 层 采样 , 必 选 ,这 里 选择 housing 列 ,如 图 2-21 所 示 。 

其 参数 设置 ,目标 函数 为 可 选项 ,定义 学 习 任 务 及 相应 的 学 习 目 标 ,可 使 用 目标 函数 。 
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初始 预测 值 为 可 选项 ,数字 时 ,范围 (0,1) 表 示 每 个 stratum 
的 采样 比例 ,与 采样 个 数 二 选 一 ; 字符 串 时 ,格式 为 strata0: 
r0,strata: rl ,表示 每 个 stratum 分 别 配 置 采样 比例 。 这 里 选 ees: © 
择 分 层 形式 为 有 房贷 的 样本 占 0.3 ,无 房贷 的 样本 占 0.7。 随 机 

种 子 值 前 面 已 有 介绍 ,这 里 选择 的 是 默认 值 , 一 般 计算 机 的 随机 6m. 9 
数 都 是 伪 随 机 数 ,以 一 个 真 随机 数 (种 子 ) 作为 初始 条 件 ,然后 用 

一 定 的 算法 不 停 地 迭代 产生 随机 数 。 采 样 个 数 选择 的 是 200。 图 2-20 分 层 采样 操作 流程 图 

结果 如 图 2-22 所 示 ,yes 与 no 的 比值 大 概 是 1: 3。 
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(a) (b) 
图 2-21 分 层 采 样 参数 设置 图 


4. 过 滤 与 映射 

阿里 云 机 器 学 习 平台 对 于 过 滤 与 映射 的 说 明 为 : 对 数据 按照 过 滤 表 达 式 进行 筛选 。 
“过 滤 条 件 ” 中 填写 where 语句 后 面 的 sql 脚本 即 可 ;“ 映 射 规则 ”可 以 rename 字段 名 称 , 即 
可 以 过 滤 数 据 然 后 重新 命名 该 列 的 名 称 。 即 过 滤 指 的 是 筛选 数据 ,映射 指 的 是 重 命名 该 列 
的 名 称 。 这 里 选择 表 bank data 中 的 age 列 过 滤 , 选 出 年 龄 小 于 50 的 样本 ,使 用 直方 图 直 
观 地 展现 数据 的 变化 。 过 滤 与 映射 操作 流程 如 图 2-23 所 示 。 
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图 2-22 分 层 采样 结果 图 2-23 ”过滤 与 映射 操作 流程 图 

















其 字段 设置 如 图 2-24 所 示 , 在 “映射 规则 ”选择 age 列 , 并 可 以 在 “输出 字段 ”中 重 命名 ， 
这 里 重 命名 为 age_before_fifth, 在 “过 滤 条 件 " 里 直接 输入 所 需 的 筛选 条 件 。 

原 数据 与 操作 后 的 直方 图 结果 如 图 2-25 所 示 ,年 龄 在 50 及 以 上 的 过 滤 掉 了 ,并 重 命 名 
为 age before fifth, 
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图 2-24 ”过滤 与 映射 字段 设置 图 
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图 2-25 过 滤 与 映射 前 后 age 列 直方 图 
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大 数据 控 握 与 应 用 


2.10 小 结 


数据 预 处 理 包 括 数 据 采样 与 过 滤 、 数 据 清 理 、 数 据 集成 .数据 变换 ,数据 规约 、 特 征 选择 
和 特征 提取 。 

数据 采样 使 得 所 选 数 据 尽 可 能 地 代表 总 体 的 信息 ,数据 采样 分 为 加 权 采 样 、 随 机 采样 和 
分 层 采 样 。 

数据 清理 试图 填补 缺失 的 值 , 光 滑 噪 声 同 时 识别 离 群 点 ,并 纠正 数据 的 不 一 致 性 。 

数据 集成 将 来 自 多 个 数据 源 的 数据 整合 成 一 致 的 数据 存储 。 语 义 异 种 性 的 解决 .元 数 
据 、 相 关 分 析 、 元 组 重复 检测 和 数据 冲突 检测 都 有 助 于 数据 的 顺利 集成 。 

数据 变换 将 数据 变换 成 适 于 挖掘 的 形式 。 例 如 ,属性 数据 可 以 规范 化 ,使 得 它们 可 以 落 
入 小 区 间 , 如 [0,1]。 

数据 规约 得 到 数据 的 规约 表示 ,而 使 得 信息 内 容 的 损失 最 小 化 。 其 中 ,数值 数据 的 
概念 分 层 自动 产生 可 能 涉及 诸如 分 箱 直方 图 分 析 、 聚 类 分 析 、 基 于 灶 的 离散 化 和 根据 自 
然 划 分 分 段 方法 。 对 于 分 类 数据 ,概念 分 层 可 以 根据 定义 分 层 的 属性 的 不 同 值 个 数 自动 
产生 : 

特征 的 选择 的 实质 是 从 原始 数据 集中 选取 最 优 子 集 的 过 程 , 而 特征 提取 是 用 映射 (或 变 
换 ) 的 方法 把 原始 特征 变换 为 较 少 的 新 特征 。 

尽管 已 经 提出 了 一 些 较 为 成 熟 的 数据 预 处 理 的 方法 ,但 数据 预 处 理 仍然 是 一 个 活跃 的 
研究 领域 。 





B 考 B 


1. 在 现实 世界 的 数据 中 , 某 些 属性 上 缺失 值得 到 元 组 是 比较 常见 的 。 讨 论处 理 这 一 问 
题 的 方法 。 

2. 讨论 数据 集成 需要 考虑 的 问题 。 

3. 如 下 规范 化 方法 的 值 域 是 什么 ? 

CD 最 小 -最 大 规范 化 。 

(2) z-score 规范 化 。 

(3) z-score 规范 化 ,使 用 均值 绝对 偏差 而 不 是 标准 差 。 

(4) 小 数 定 标 规范 化 。 

4. 使 用 如 下 方法 规范 化 下 列 数据 组 : 200.300.400.600.1000, 

(D $ min 一 0,max 一 1, 最 小 -最 大 规范 化 。 

(2) z-score 规范 化 。 

(3) z-score 规范 化 ,使 用 均值 绝对 偏差 而 不 是 标准 差 。 

(4) 小 数 定 标 规范 化 。 

5. 假设 12 个 销售 价格 记录 已 经 排序 ,它们 是 5,10,11,13,15,35,50,55,72,92,204， 


215。 使 用 如 下 各 方法 将 它们 划分 成 3 个 箱 。 
CD 等 频 (等 深 ) 划 分 。 
(2) 等 宽 划 分 。 
(3) BR. 
6. 简 述 特征 选择 与 特征 提取 的 异同 。 


7. 基于 阿里 云 数 加 平台 对 常见 的 数据 预 处 理 技术 进行 实践 。 
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第 3 章 关联 规则 挖掘 





3.1 基本 概念 


关联 规则 挖掘 是 用 来 发 现 大 量 数据 中 项 集 之 间 有 趣 的 关联 联系 。 如 果 两 项 或 多 项 属性 
之 间 存 在 关联 ,那么 其 中 一 项 的 属性 就 可 以 依据 其 他 属性 值 进行 预测 ,关联 规则 挖掘 是 数据 
挖掘 中 的 一 个 重要 课题 ,最 近 几 年 已 被 业界 深入 研究 和 广泛 应 用 。 

关联 规则 研究 有 助 于 发 现 交 易 数据 库 中 不 同 商品 (项 ) 之 间 的 联系 , 找 出 顾客 购买 行为 
模式 ,如 购买 了 某 一 商品 对 购买 其 他 商品 的 影响 。 分 析 结 果 可 以 应 用 于 商品 货架 布局 、 货 存 
安排 以 及 根据 购买 模式 对 用 户 进行 分 类 。 

关联 规则 挖掘 问题 可 以 分 为 两 个 子 问题 : 第 一 步 是 找 出 事务 数据 库 中 所 有 大 于 等 于 用 
户 指定 的 最 小 支持 度 的 数据 项 集 ; 第 二 步 是 利用 频繁 项 集 生 成 所 需要 的 关联 规则 ,根据 用 
户 设 定 的 最 小 置信 度 进 行 取舍 ,最 后 得 到 强 关 联 规则 。 识 别 或 发 现 所 有 频繁 项 目 集 是 关联 
规则 发 现 算法 的 核心 ,关联 规则 的 基本 描述 如 下 。 

l. 项 与 项 集 

数据 库 中 不 可 分 割 的 最 小 单位 信息 称 为 项 (或 项 目 ), 用 符号 表示 ,项 的 集合 称 为 项 
集 。 设 集合 IS (ir ii} 是 项 集 , 工 中 项 目的 个 数 为 A, 则 集合 IRIS kf. Db. 
合 {啤酒 ,尿布 ,奶粉 } 是 一 个 3- 项 集 。 

2. 事务 

设 T= (in vig ia)} 是 由 数据 库 中 所 有 项 目 构成 的 集合 ,事务 数据 库 TS nete) 
是 由 一 系列 具有 唯一 标识 的 事务 组 成 。 每 一 个 事务 ti(i 二 1,2,….n) 包 含 的 项 集 都 是 了 的 
子 集 。 例 如 ,如 果 顾 客 在 商场 里 同一 次 购买 多 种 商品 ,这 些 购 物 信息 在 数据 库 中 有 一 个 唯一 
的 标识 ,用 以 标识 这 些 商 品 是 同一 顾客 同一 次 购买 的 , 则 称 该 用 户 的 本 次 购物 活动 对 应 一 个 
数据 库 事务 。 

3. 项 集 的 频数 (支持 度 计数 ) 

包括 项 集 的 事务 数 称 为 项 集 的 频数 (支持 度 计数 )。 

4. 关联 规则 

关联 规则 是 形 如 X=>Y MASK. XY 2321281 的 真子 集 , 并 且 XNY= 名 。X 称 
为 规则 的 前 提 ,Y 称 为 规则 的 结果 。 关 联 规则 反映 X 中 的 项 目 出 现时 ,Y 中 的 项 目 也 跟着 
出 现 的 规律 。 

5. 关联 规则 的 支持 度 (support) 

关联 规则 的 支持 度 是 交易 集中 同时 包含 X AMY 的 交易 数 与 所 有 交易 数 之 比 , 它 反映 了 





X fü Y 中 所 含 的 项 在 事务 集中 同时 出 现 的 频率 , 记 为 support(X 一 Y), 即 
support( XY) = support(X U Y) = P(XY) «3=1) 
6. 关联 规则 的 置信 和 度 (confidence) 
关联 规则 的 置信 度 是 交易 集中 同时 包含 X MY 的 交易 数 与 包含 X 的 交易 数 之 比 , 记 
为 confidence(X 一 Y) ,置信 度 反 映 了 包含 X 的 事务 中 出 现 Y 的 条 件 概 率 。 


support(X U Y) _ 
support( X) 





confidence( XY) = 


7. 最 小 支持 度 与 最 小 置信 度 

通常 用 户 为 了 达到 一 定 的 要 求 ,需要 指定 规则 必须 满足 的 支持 度 和 置信 度 阔 限 值 , 此 两 
个 值 称 为 最 小 支持 度 阔 值 (min _sup) 和 最 小 置信 度 阔 值 (min_conf)。 其 中 ,min_sup 描述 
了 关联 规则 的 最 低 重 要 程度 ,min_conf 规定 了 关联 规则 必须 满足 的 最 低 可 靠 性 。 

8. 强 关联 规则 

tu support(X>Y)>min_sup H. confidence(X 一 Y) 三 min_conf, 则 称 关联 规则 X— 
Y 为 强 关 联 规则 ; 否则 , 称 XY 为 弱 关 联 规则 。 通 常 所 说 的 关联 规则 一 般 是 指 强 关联 
规则 。 

9. 频繁 项 集 

设 UST, 项 目 集 U 在 数据 集 T 上 的 支持 度 是 包含 U 的 事务 在 全 中 所 占 比例 , 即 


lite TIUCY# | 
ITI 


式 中 , | + | 表示 集合 中 元 素数 目 。 对 项 目 集 ERR AE T 中 所 有 满足 用 户 指定 的 最 
小 支持 度 的 项 目 集 , 即 不 小 于 min. sup 的 工 的 非 空子 集 , 称 为 频繁 项 目 集 或 大 项 目 集 。 

10. 项 目 集 空间 理论 

Agrawal 等 建立 了 用 于 事务 数据 库 挖掘 的 项 目 集 空间 理论 ,理论 的 核心 为 : 频繁 项 目 
集 的 子 集 仍 是 频繁 项 目 集 , 非 频繁 项 目 集 的 超 集 是 非 频 繁 项 目 集 。 


3.2 关联 规则 挖 气 算 法 一 一 Apriori 算法 原理 


3.2.1 Apriori 算法 原理 解析 


最 著名 的 关联 规则 发 现 方法 是 R' Agrawal 提出 的 Apriori 算法 。 

1. Apriori 算法 基本 思想 

Apriori 算法 基本 思想 是 通过 对 数据 库 的 多 次 扫描 计算 项 集 的 支持 度 ,发 现 所 有 的 频繁 
项 集 , 从 而 生成 关联 规则 。Apriori 算法 对 数据 集 进 行 多 次 扫描 。 第 一 次 扫描 得 到 频繁 1- 项 
集 的 集合 Li ,第 k(k 二 1) 次 扫描 首先 利用 第 一/ 次 扫描 的 结果 LL,-1 产 生 候 选项 集 的 集合 
Ci ,然后 在 扫描 的 过 程 中 确定 Cs 中 元 素 的 支持 度 , 最 后 在 每 一 次 扫描 结束 时 计算 频繁 &- 项 
集 的 集合 Li, 算 法 当 候 选 二 项 集 的 集合 Ci 为 空 时 结束 。 

2. Apriori 算法 产生 频繁 项 集 的 过 程 

产生 频繁 项 集 的 过 程 主要 分 为 连接 和 剪 枝 两 步 ,如 下 所 示 。 

CD BRA. ATR Li(k 宇 2) ,通过 Li 与 自身 作 连 接 产 生 候 选 二 项 集 的 集合 Ci, 设 
h All, 是 Li-1 中 的 项 集 , 记 4;[ 门 表示 4; 的 第 j 个 项 。Apriori 算法 假定 事务 或 项 集中 的 项 


PlY | X) (3-2) 

















support(U) = (3-3) 








关联 规则 挖 据 


DIES 


AB T2 di 55 7H] 





按 字典 次 序 排序 ,对 于 (k 一 1) 项 集 上 ,对 应 的 项 排序 为 : J< 5[2] 过 … 过 li[k 一 1]。 如 
R LR ha ML 的 前 & 一 2 个 对 应 项 相等 , 则 Al, 可 连接 。 即 ,如 果 ( C= 
bTIPNh[2J=L[2 PN nx s-2]-/5[&—-2] Na [A-1] 12 [£ 1] M 1 
MEH. AdFh[k—1]-ü[k—1]nI UA RE AN PE 8 ££ ,而 按照 La Lo s Lai La sts 
次 序 寻 找 频繁 项 集 可 以 避免 对 事务 数据 库 中 不 可 能 发 生 的 项 集 所 进行 的 搜索 和 统计 的 工 
作 。 连 接 h 和 ls 产生 的 结果 项 集 为 (1 [1]-a [2] a [R71 ]- 42 [871 D. 

(2) 剪 枝 步 。 根 据 Apriori 算法 的 性 质 可 知 ,频繁 二 项 集 的 任何 子 集 必须 是 频繁 项 集 ， 
由 连接 生成 的 集合 Ce 需要 进行 验证 ,去 除 不 满足 支持 度 的 非 频繁 坟 项 集 。 

3. Apriori 算法 的 主要 步骤 

CD 扫描 全 部 数据 ,产生 候选 1- 项 集 的 集合 Ci 。 

(2) 根据 最 小 支持 度 ,由 候选 1- 项 集 的 集合 C1 产生 频繁 1- 项 集 的 集合 Li1。 

(3) 对 >1, 重 复 执 行 步骤 (4)、(C5) 和 (6) 。 

(4) dH Le 执行 连接 和 剪 枝 操作 ,产生 候选 (A 十 2)- 项 集 的 集合 Ciri 。 

(5) 根据 最 小 支持 度 , 由 候选 (k 十 1)- 项 集 的 集合 Cr+1, 产 生 频 繁 (k 十 1)- 项 集 的 集 
合 Liti。 

(6) H LAD. MW R=R+1. BEE IRCA) ; 否则 , 跳 往 步骤 (7)。 

(7) 根据 最 小 置信 度 , 由 频繁 项 集 产 生 强 关联 规则 ,结束 。 

4. Apriori 算法 描述 

输入 : 数据 库 D. t^] SC TEE] fi min. sup. 

输出 : D 中 的 频繁 集 工 。 

伪 代 码 描述 : 

// 找 出 频繁 1 项 集 

L1 -find frequent 1- itemsets(D); 
For(k = 2;Lk- 1 != null;k++) { 
// 产 生 候选 , 并 剪 枝 
Ck =apriori_gen(Lk-1 ); 
// 扫 描 D 进行 候选 计数 
For each 事务 t inD{ 
Ct = subset(Ck, t); // 得 到 € 的 子 集 
For each 候选 c 属于 Ct 


c. count++; 





} 
// 返 回 候选 项 集中 不 小 于 最 小 支持 度 的 项 集 
Lk = (c 属于 Ck | c.count>=min sup} 
} 
Return L= 所 有 的 频繁 集 ; 


第 一 步 : 连接 (join) 


Procedure apriori gen (Lk- 1 :frequent(k- 1) - itemsets) 
For each Ji f£ 11 属于 Lk- 1 
For each 项 集 12 属于 Ik- 1 
If( (11 [1] = 12 [1])&&( 11 [2] 212 [2])&& …&& (11 [k-2] = 12 [k- 2]) &&(11 [k - 1]< 
12'(k- 11) ) 
then( 


c= 11 连接 12 // 连 接 步 : 产生 候选 
// 若 k-1 项 集中 已 经 存在 子 集 c 则 进行 剪 枝 
if has_infrequent_subset(c, Ik- 1 ) then 
delete c; // 前 枝 步 : 删除 非 频繁 候选 
else add c to Ck; 
} 
Return Ck; 


第 二 步 : By eC prune) 


Procedure has_infrequent_sub (c:candidate k- itemset; Lk- 1 :frequent(k- 1) - itemsets) 
For each (k- 1) - subset s of c 
If s 不 属于 Ik- 1 then 
Return true; 
Return false; 


3.2.2 Apriori 算法 应 用 举例 


【 例 3.1】 表 3-1 是 一 个 数据 库 的 事务 列表 ,在 数据 库 中 有 9 笔 交 易 , 即 1D| = 9. SÉ 
交易 都 用 唯一 的 标识 符 TID 作 标记 , 交 易 中 的 项 按 字典 序 存放 。 需 描述 Apriori 算法 寻找 
D 中 频繁 项 集 的 过 程 。 


表 3-1 数据 库 的 事务 列表 





























事 5 商品 ID 的 列表 
T100 11.12.15 
T200 12,14 
T300 12,13 
T400 11.12.14 
T500 11,13 
T600 12,13 
T700 11,13 
T800 11,12,13,15 
T900 11,12,13 





解 : 设 最 小 支持 度 计 数 为 2, 即 min_sup 二 2, 利 用 Apriori 算法 产生 候选 项 集 及 频繁 项 
集 的 过 程 如 下 。 
(1) 第 一 次 扫描 。 扫 描 数据 库 D, 获 得 每 个 候选 项 的 计数 ,如 图 3-1 所 示 。 
C Ly 
项 集 | 支持 度 计数 项 集 



































比较 候选 支持 计数 
un 7 与 最 小 支持 度 计数 ua 
m [s e | * | 
e | in 





图 3-1 ”频繁 1- 项 集 支持 度 计数 统计 图 
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由 于 最 小 事务 支持 数 为 2, 没 有 删除 任何 项 目 , 可 以 确定 频繁 1- 项 集 的 集合 Li, 它 由 具 
有 最 小 支持 度 的 候选 1- 项 集 组 成 。 


(2) 第 二 次 扫描 。 为 了 发 现 频繁 2- 项 集 的 集合 Ls, 算 法 使 用 LicoLi 产生 候选 2- 


总 
Á» 





的 集合 C: ,在 剪 枝 步 没有 候选 从 Co. 中 删除 ,因为 这 些 候选 的 每 个 子 集 也 是 频繁 的 ,如 图 3-2 














所 示 。 
e; G 

项 集 项 集 “| 支持 度数 
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{11, 14} p | U BH 3 大 于 
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图 3-2 ”频繁 2- 项 集 支持 度 计数 统计 图 




















(3) 第 三 次 扫描 。LacoLs 产生 候选 3- 项 集 的 集合 Cs ,如 图 3-3 所 示 。 


{1, D. B} 
uL D. 15} 





图 3-3 
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D, 对 项 集 


Ly 


项 集 支持 度 


计数 








候选 3 项 集 Cs 的 产生 详细 地 列表 如 下 。 


(D 连接 Cs =L200L2 





频繁 3- 项 集 支 持 度 计 数 统计 图 





{11, R, 15} 


—((1,12) (11,13) (11.15) .{12, 13}, (12,14) ,{12,15}} oo 
(1:12) 1.13) (01.15) (12. 13) (02,14) (12.15) ) 
= (1.12.13) (11.12.15) ,{11.13.15}. (12.13, 14} . {12.13.15} (12,14, 15)) 

@ 使 用 Apriori 性 质 剪 枝 : 频繁 项 集 的 所 有 非 空子 集 也 必须 是 频繁 的 。 例 如 , {11,13， 
15} 的 2-3 T 8838 (114 13) (I1. I5) I (I3. 15) (13. 15) A Æ L 的 元 素 ,因而 不 是 频繁 的 。 
因此 从 Cs "PIER UIT I3. 15) ,因此 剪 枝 C5— ({11,12,13}.{11,12,15}}. 

(4) 第 四 次 扫描 。 算 法 使 用 LsceLs 产生 候选 4-3 SERIE C... LyooL,— (001.12. 


T3,15}} ,根据 Apriori 性 质 , 因 





为 它 的 子 集 {12,13,15}) 不 是 频繁 的 ,所 以 这 个 项 集 被 删除 。 
这 样 C= 二 名 ,因此 算法 终止 , 找 出 了 所 有 的 频繁 项 集 。 


3.3 Apriori 算法 源 代 码 结 果 分 析 


import java. io. BufferedReader; 
import java. io. File; 

import java. io. FileNotFoundException; 
import java. io. FileReader; 
import java. io, IOException; 
import java. util. ArrayList; 
import java. util. HashMap; 
import java. util. List; 

import java. util. Map; 

import java. util. Set; 

import java. util. TreeSet; 
public class AprioriAlgorithm { 


private int minSup; 
private static List <String> data; 
private static List < Set < String>> dataSet ; 
public static void main(String[] args) { 
long startTime - System.currentTimeMillis(); 
AprioriAlgorithm apriori = new AprioriAlgorithm(); 
// 使 用 书 中 的 测试 集 
//apriori. setMinSup(2); 
data = apriori.buildData(); 
// 设 置 最 小 支持 度 
apriori. setMinSup(2) ; 
// 构 造 数据 集 
data = apriori. buildData(); 
// 构 造 频繁 1- 项 集 
List < Set <String>> flSet = apriori.findFlItem(data); 
apriori. printSet(f1Set, 1); 
List < Set < String>> result = f£1Set; 
inti = 2; 
do( 
result = apriori.arioriGen(result); 
apriori.printSet(result, i); 
i++; 
}while(result.size() != 0); 
long endTime = System. currentTimeMillis(); 
System. out .println(" 共 用 时 : " + (endTime - startTime) 
} 
public void setMinSup(int minSup) { 


+ "ms"); 


Apriori 算法 的 源 程 序 如 下 所 示 , 相关 程序 和 实验 数据 可 从 github 中 下 载 ,网 址 为 
https://github. com/guanyaol /apriori. git. 
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this.minSup - minSup; 
} 
/* 
* 构造 原始 数据 集 , 可 以 为 之 提供 参数 , 也 可 以 不 提供 
* 如 果 不 提供 参数 ,将 按 程 序 默认 构造 的 数据 集 
* 如 果 提 供 参数 为 文件 名 , 则 使 用 文件 中 的 数据 集 
*/ 
List «String» buildData( String fileName) { 
List < String> data = new ArrayList < String>(); 
if(fileName. length != 0){ 
File file = new File(fileName[0]); 
try{ 
BufferedReader reader = new BufferedReader(new FileReader( file) ) ; 
String line; 
while( ( line = reader. readLine()) != null ){ 
data. add( line); 
j 
]catch (FileNotFoundException e){ 
e. printStackTrace(); 
}eatch (IOException e) { 
e. printStackTrace( ) ; 
} 
}else{ 
data. add("I1 I2 I5"); 
data. add("I2 14"); 
data. add( "I2 I3"); 
data. add("I1 I2 T4"); 
data.add("I1 I3"); 
data. add("I2 I3"); 
data. add("I1 I3"); 
data. add("I1 I2 I3 I5"); 
data.add("I1 I2 13"); 
J 
dataSet = new ArrayList < Set < String >>(); 
Set < String» dSet; 
for(String d : data) { 
dSet = new TreeSet < String >(); 
String[] darr = d.split(" "); 
for(String str : dArr){ 
dSet. add(str) ; 
} 
dataSet . add(dSet) ; 
} 
return data; 


/* 找 出 候选 1- 项 集 
* @param data 
* @return result 
*/ 
List < Set < String >> findFlItem(List < String> data) { 
List < Set < String >> result = new ArrayList < Set < String>>(); 
Map < String, Integer» dc = new HashMap < String, Integer >(); 
for(String d : data) { 
String[] items = d.split(" "); 
for(String item : items)( 
if(dc.containsKey(item)) { 
dc. put( item, dc.get(item) + 1); 
Jelse( 
dc. put(item, 1); 
} 
} 
} 
Set < String> itemKeys = dc. keySet(); 
Set < String> tempKeys = new TreeSet < String >(); 
for(String str : itemKeys) { 
tempKeys. add( str) ; 
for(String item : tempKeys) { 
if(dc.get(item) >= minSup) { 
Set < String> flSet = new TreeSet < String >(); 
£1Set.add( item); 
result. add(f1Set) ; 
i 
) 
return result; 
} 
/* 利 用 arioriGen 方法 由 k-1- 项 集 生成 k- 项 集 
* @param preSet 
* @return 
*/ 

List < Set < String >> arioriGen(List < Set < String >> preSet) { 
List < Set < String >> result = new ArrayList < Set < String>>(); 
int preSetSize = preSet.size(); 
for(int i = 0; i< preSetSize - 1; i++){ 

for(int j = i + 1; j < preSetSize; j++){ 
String[] strAl preSet.get(i).toArray(new String[0]); 
String[ ] strA2 preSet. get(j). toArray(new String[0]); 


if(isCanLink(strAl, strA2)) { // 判 断 两 个 k-1- 项 集 是 否 符合 连接 成 k- 项 集 的 条 件 


Set< String > set = new TreeSet< String>(); 
for(String str : strAl){ 
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set.add(str); // 将 stral 加 入 set 中 连 成 前 k-1- 项 集 
} 
set.add((String) strA2[strA2.length- 1]); // 连 接 成 k- 项 集 
// 判 断 k- 项 集 是 否 需 要 剪 切 掉 , 如 果 不 需 要 被 cut 掉 , 则 加 入 到 k- 项 集 的 列表 中 
if(!isNeedCut(preSet, set)) { 
result.add(set); 
} 
J 
} 
} 
return checkSupport (result) ; // 返 回 的 都 是 频繁 k- 项 集 
/* 
* 把 set 中 的 项 集 与 数量 集 比较 并 进行 计算 , 求 出 支持 度 大 于 要 求 的 项 集 
* @param set 
* @return 
*/ 

List «Set < String >> checkSupport (List < Set < String» > setList){ 
List < Set <String>> result = new ArrayList < Set < String >>(); 
boolean flag = true; 
int [] counter = new int[setList. size()]; 
for(int i = 0; i<setList.size(); i++){ 

for(Set < String> dSets : dataSet) { 
if (setList. get(i).size() > dSets. size()) { 
flag = true; 
Jeise( 
for(String str : setList.get(i))( 
if(!dSets.contains(str))( 
flag = false; 
break; 
} 
} 
if(flag) { 
counter[i] += 1; 
Jelse( 
flag - true; 
) 
} 
} 

} 

for(int i = 0; i< setList. size(); i++){ 
if (counter[i] >= minSup) { 

result.add(setList.get(i)); 
} 
} 


return result; 
} 
/* 
* 判断 两 个 项 集 能 否 执行 连接 操作 
* @param s1 
* @param s2 
* @return 
«/ 
boolean isCanLink(String [] s1, String[] s2){ 
boolean flag = true; 
if(sl.length == s2.length) { 
for(int i = 0; i<sl.length - 1; i++){ 
if(!s1[i]. equals(s2[i])){ 
flag = false; 
break; 
} 
} 
if(sl[sl. length - 1].equals(s2[s2. length - 1])){ 
flag = false; 
} 
Jeise( 
flag = true; 
} 
return flag; 
} 
/* 
* 判断 set 是 否 需要 被 cut 
* 
* @param setList 
* @param set 
* @return 
*/ 
boolean isNeedCut (List < Set < String >> setList, Set < String> set) { 
//setList 指 频繁 k- 1- THAR, set 指 候选 k- 项 集 
boolean flag = false; 
List < Set <String>> subSets = getSubset(set); // 获 得 k- 项 集 的 所 有 k- 1- 项 集 
for ( Set< String> subSet : subSets) { 
// 判 断 当 前 的 k-1- 项 集 set 是 否 在 频繁 k-1- 项 集中 出 现 , 如 果 出 现 , 则 不 需要 cut 
// 若 没有 出 现 , 则 需要 被 cut 
if( ! isContained(setList, subSet) ){ 
flag = true; 
break; 
} 
} 
return flag; 
} 
/x 
* 功能 :判断 k- 项 集 的 某 x-1- 项 集 是 否 包 含 在 频繁 k 一 1- 项 集 列表 中 
* 
* @param setList 
* @param set 
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* @return 
*/ 

boolean isContained(List < Set < String>> setList, Set < String» set){ 
boolean flag = false; 
int position = 0; 
for( Set «String» s : setList) { 

String [] sArr = s.toArray(new String[0]); 
String [] setArr = set. toArray(new String[0]); 
for(int i = 0; i< sArr. length; i++) { 
if ( sArr[i].equals(setArr[i])){ 
// 如 果 对 应 位 置 的 元 素 相同 , 则 position 为 当前 位 置 的 值 
position = i; 
jelse{ 
break; 
} 
} 
// 如 果 position 等 于 数组 的 长 度 , 说 明 已 经 找到 某 个 setList 中 的 集合 与 
//set 集合 相同 了 ,退出 循环 , 返回 包含 
// 否 则 ,把 position 置 为 0 进入 下 一 个 比较 
if ( position == sArr. length - 1) { 
flag = true; 
break; 
Jelse { 
flag = false; 
position = 0; 
$ 
} 
return flag; 

} 

/x 
* 获得 k 项 集 的 所 有 k 一 1 一 项 子 集 
* @param set 
* @return 
«/ 

List < Set < String >> getSubset (Set < String> set) { 
List < Set <String>> result = new ArrayList < Set < String >>(); 
String [] setArr = set. toArray(new String[0]); 
for( int i = 0; i< setArr. length; i++){ 

Set < String> subSet = new TreeSet < String>(); 
for(int j = 0; j< setArr. length; j++){ 
if( it 9){ 
subSet.add( (String) setArr[j]); 
} 
} 
result. add(subSet) ; 
} 
return result; 
} 
/* 
* 功能 : 打印 频繁 项 集 
x/ 


void printSet(List < Set < String> setList, int i)( 
System. out .print(" 频 繁 ” + i + "项 集 : JE" + setList.size() + "项 : {"); 
for(Set < String> set : setList) { 
System. out . print("["); 
for(String str : set) { 
System. out. print(str + ""); 

} 
System. out . print("], "); 

} 

System. out . print1n(")"); 

} 
} 


程序 运行 界面 如 图 3-4 所 示 。 





繁 1 项 集 : Hal: ([Ii ], [I2 ], [I3 ], [IS ], ) 
频繁 2 项 集 : 共 5 项 : {[I1 I2 ], [I1 I3 ], [I1 IS ], [I2 I3 ], [I2 IS ], } 
频繁 3 项 集 : 共 2 项 : {[I1 I2 I3 ], [I1 I2 IS ], ) 
HANE: Hom: 0 
共用 时 : 24ms 


图 3-4 Apriori 算法 运行 结果 


3.4 Apriori 算法 的 特点 及 应 用 


3.4.1 Apriori 算法 的 特点 


Apriori 算法 是 应 用 最 广泛 的 关联 规则 挖掘 算法 , 它 有 如 下 优点 。 

Q) Apriori 算法 是 一 个 迭代 算法 。 该 算法 首先 挖掘 生成 Li, 然后 由 Li 生成 Cs, 再 由 
C; 扫描 事务 数据 库 得 到 世 ,根据 Le 生成 Cs ,由 Cs 扫描 事务 数据 库 得 到 Ls, 直 到 Ci 为 空 而 
产生 所 有 频繁 项 目 集 ,Apriori 算法 将 生成 所 有 大 于 等 于 最 小 支持 度 的 频繁 项 目 集 。 

(2) 数据 采用 水 平 组 织 方式 。 所 谓 水 平 组 织 , 就 是 数据 按照 {事务 编号 ,项 目 集 } 的 形式 
组 织 。 

(3) 采用 Apriori 优化 方法 。 所 谓 Apriori 优化 ,就 是 利用 Apriori 性 质 进行 的 优化 。 

(4) 适合 事务 数据 库 的 关联 规则 挖掘 。 

(5) 适合 稀 朴 数据 集 。 根 据 以 往 的 研究 ,该 算法 只 能 适合 稀疏 数据 集 的 关联 规则 挖掘 ， 
也 就 是 频繁 项 目 集 的 长 度 稍 小 的 数据 集 。 

Apriori 算法 作为 经 典 的 频繁 项 目 集 生成 算法 ,在 数据 挖掘 中 具有 里 程 碑 的 作用 ,但 是 
随 着 研究 的 深入 , 它 的 缺点 也 暴露 出 来 ,主要 有 以 下 缺点 。 

(D 多 次 扫描 事务 数据 库 , 需 要 很 大 的 1/O 负载 。 在 Apriori 算法 的 扫描 中 ,对 第 & 次 
循环 ,候选 集 C, 中 的 每 个 元 素 都 要 扫描 数据 库 一 遍 来 验证 其 是 否 加 入 L, 假 如 一 个 频繁 项 
目 集 包含 10 个 项 ,那么 至 少 需要 扫描 数据 库 10 遍 。 当 数据 库 中 存放 大 量 的 事务 数据 时 ,在 有 
限 的 内 存 容 量 下 ,系统 IO 负载 相当 大 ,每 次 扫描 数据 库 的 时 间 就 会 很 长 ,这 样 效率 就 非常 低 。 

(2) 可 能 产生 庞大 的 候选 集 。Apriori Si Hl LiP ^E 人 -候选 集 Cx, 其 结果 是 指数 增 
长 的 ,例如 ,10* 个 频繁 1- 项 目 集 就 有 可 能 产生 接近 10 个 元 素 的 2- 候 选集 ,如 此 大 的 候选 
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集 对 时 间 和 内 存 容量 都 是 一 种 挑战 。 

(3) 在 频繁 项 目 集 长 度 变 大 的 情况 下 ,运算 时 间 显 著 增 加 。 当 频繁 项 目 集 长 度 变 大 时 ， 
支持 该 频繁 项 目 集 的 事务 会 减少 。 从 理论 上 讲 , 计 算 其 支持 度 需要 的 时 间 不 会 明显 增加 ,但 
Apriori 算法 仍然 是 在 原来 事务 数据 库 中 来 计算 长 频繁 项 目 集 的 支持 度 , 由 于 每 个 频繁 项 目 
集 的 项 目 变 多 了 ,所 以 在 确定 每 个 频繁 项 目 集 是 否 被 事务 支持 的 开销 也 增 大 了 ,而 且 事 务 没 
有 减少 ,因此 ,频繁 项 目 集 长 度 增 加 ,运算 时 间 显著 增加 。 


3.4.2 Apriori 算法 的 应 用 


Apriori 算法 是 应 用 最 广泛 的 关联 规则 挖掘 算法 ,通过 对 各 种 领域 数据 的 关联 性 进行 分 
Wr ,挖掘 成 果 在 相关 的 决策 制定 过 程 中 具有 重要 的 参考 价值 。 

Apriori 算法 广泛 应 用 于 商业 中 。 例 如 ,应 用 于 消费 市 场 价格 分 析 中 , 它 能 够 很 快 地 求 
出 各 种 产品 之 间 的 价格 关系 和 它们 之 间 的 影响 。 通 过 数据 挖掘 ,市 场 人 员 可 以 瞄准 目标 客 
户 , 采 用 个 人 股票 行 市 、 最 新 信息 、 特 殊 的 市 场 推 广 活 动 或 其 他 特殊 信息 手段 ,从 而 极 大 地 减 
少 广 告 预算 和 增加 收入 。 

Apriori 算法 应 用 于 网 络 安全 领域 ,例如 入 侵 检 测 技 术 中 。 早 期 中 大 型 计算 机 系统 中 都 
收集 审计 信息 建立 跟踪 档案 ,这 些 审计 跟踪 的 目的 多 是 性 能 测试 或 计 费 ,因此 对 攻击 检测 提 
供 的 有 用 信息 比较 少 。 它 通过 对 模式 的 学 习 和 训练 可 以 发 现 网 络 用 户 的 异常 行为 模式 , 采 
用 作用 度 的 Apriori 算法 削弱 了 Apriori 算法 的 挖掘 结果 规则 ,使 网 络 入 侵 检测 系统 可 以 快 
速 地 发 现 用 户 的 行为 模式 ,能 够 快速 地 锁定 攻击 者 ,提高 了 基于 关联 规则 的 入 侵 检测 系统 的 
检测 性 。 

Apriori 算法 应 用 于 高 校 管理 中 。 随 着 高 校 贫困 生 人 数 的 不 断 增加 ,学 校 管理 部 门 资助 
工作 难度 也 越 加 增 大 ,数据 挖掘 算法 可 以 帮助 相关 部 门 解决 上 述 问题 。 例 如 ,有 的 研究 者 将 
关联 规则 的 Apriori 算法 应 用 到 贫困 助 学 体 系 中 ,并 且 针对 经 典 Apriori 挖掘 算法 存在 的 不 
足 进行 改进 , 先 将 事务 数据 库 映 射 为 一 个 布尔 矩阵 ,用 逐 层 递增 的 思路 动态 地 分 配 内 存 进 行 
存储 ,再 利用 向 量 求 “与 "运算 ,寻找 频繁 项 集 。 实 验 结果 表明 ,这 种 改进 后 的 A priori 算法 
在 运行 效率 上 有 了 很 大 的 提升 ,挖掘 出 的 规则 也 可 以 有 效 地 辅助 学 校 管理 部 门 ,有 针对 性 地 
开展 贫困 助 学 工 作 。 

Apriori 算法 被 广泛 应 用 于 移动 通信 领域。 移动 增值 业务 逐渐 地 成 为 移动 通信 市 场 上 
最 有 活力 、 最 具 潜 力 、 最 受 瞩 目的 业务 。 随 着 产业 的 复苏 , 越 来 越 多 的 增值 业务 表现 出 强劲 
的 发 展 势头 ,呈现 出 应 用 多 元 化 、 营 销 品 牌 化 ,管理 集中 化 .合作 纵深 化 的 特点 。 针 对 这 种 趋 
势 , 在 关联 规则 数据 挖掘 中 广泛 应 用 的 Apriori 算法 被 很 多 公司 应 用 。 例 如 ,依托 某 电信 运营 
商 正在 建设 的 增值 业务 Web 数据 仓库 平台 ,对 来 自 移动 增值 业务 方面 的 调查 数据 进行 了 相关 
的 挖掘 处 理 , 从 而 获得 了 关于 用 户 行为 特征 和 需求 的 间接 反映 市 场 动态 的 有 用 信息 ,这 些 信息 
在 指导 运营 商 的 业务 运营 和 辅助 业务 提供 商 的 决策 制定 等 方面 具有 十 分 重要 的 参考 价值 。 








3.5 小 结 


本 章 详细 地 介绍 了 关联 规则 挖掘 的 基本 概念 ,对 经 典 的 关联 规则 挖掘 算法 一 一 Apriori 
算法 的 原理 以 及 发 现 频繁 项 目 集 过 程 进行 了 描述 ,并 用 实例 来 进行 了 说 明 。 同 时 ,分 析 了 


Apriori 算法 的 特点 和 该 算法 存在 的 缺陷 ,得 出 它 在 发 现 频繁 项 集 的 过 程 中 需要 多 次 扫描 事 
务 数 据 库 ,此 外 还 要 产生 大 量 的 候选 项 集 , 这 都 对 算法 的 效率 会 产生 很 大 的 影响 ,并 且 在 频 
繁 项 目 集 长 度 变 大 的 情况 下 ,运算 时 间 显 著 增 加 。 最 后 介绍 了 Apriori 算法 在 商业 、 网 络 安 
全 、 高 校 管理 和 移动 通信 等 领域 的 应 用 。 


思 考 a 


1. 解释 关联 规则 的 定义 。 
2. 描述 Apriori 关联 规则 算法 。 
3. 如 表 3-2 所 示 数 据 库 有 5 个 事物 。 设 min_sup=60%,min_conf=80%, 

















表 3-2 数据 库 
TID 购买 的 商品 
1100 {M,O,N,K,E,Y} 
I200 {D,O,N,K,E,Y} 
1300 (M.A.K,E) 
1400 {M,U,C,K,Y} 
1500 (C.O.O. K.I.Ej 





(1) 分 别 使 用 Apriori 和 FP 增长 算法 找 出 所 有 频繁 项 集 。 比 较 两 种 挖掘 过 程 的 效率 。 
(2) 列举 所 有 与 下 面 的 元 规则 匹配 的 强 关联 规则 (给 出 支持 度 * 和 置信 度 c), 其 中 ,X 
代表 客户 的 变量 item; 表示 项 的 变量 (如 A、B 等 ) 。 
Vx € transaction. buys( X .item;) A buys(X .item;) buys(CX .item;)[ s.c] 
4. 如 表 3-3 所 示 , 关 系 表 People 是 要 挖掘 的 数据 集 , 有 3 个 属性 (Age, Married. 
NumCars), 。 假 如 用 户 指定 的 min_sup=60% ,min_conf 王 80% , 试 挖掘 表 3-3 中 的 数量 关联 
规则 。 


表 3-3 关系 表 People 











RecordI D Age Married RecordI D Age Married NumCars 
100 23 No 400 34 Yes 2 
200 25 Yes 500 38 Yes 2 
300 29 No 
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4.1 


4.1.1 回归 概述 

















逻辑 回归 方法 


基 本 概 


A 
mu 


可 归 指 研究 一 组 随机 变量 (Yi ,Ys,… ,Yi;) 和 另 一 组 (Xi,X:,…,X;) 变 量 之 间 关 系 的 统 


计 分 析 方 法 ,又 称 多 重 回归 分 析 。 通 常 前 者 是 因 变量 ,后 者 是 自 变量 。 当 因 变 量 和 自 变量 为 
线性 关系 时 , 它 是 一 种 特殊 的 线性 模型 。 最 简单 的 情形 是 一 元 线性 回归 ,由 大 体 上 有 线性 关 
系 的 一 个 自 变 量 和 一 个 因 变 量 组 成 ; 模型 是 Y==a 十 bX 十 e(X 是 自 变 量 ,Y 是 因 变量 ,e 是 随 
机 误差 )。 若 进一步 假定 随机 误差 遵从 正 态 分 布 , 就 叫做 正 态 线性 模型 。 

一 般 的 , 若 有 A 个 自 变 量 和 1 个 因 变量 , 则 因 变 量 的 值 分 为 两 部 分 : 一 部 分 由 自 变量 影 
响 , 即 表示 为 它 的 函数 ,函数 形式 已 知 且 含 有 未 知 参数 ; 另 一 部 分 由 其 他 未 考虑 因素 和 随机 
性 影响 , 即 随机 误差 。 当 函数 为 参数 未 知 的 线性 函数 时 , 称 为 线性 回归 分 析 模 型 ; 当 函 数 为 











参数 未 知 的 非 线性 函数 时 , 称 为 非 线性 回归 分 析 模 型 。 当 自 变量 个 数 大 于 1 时 称 为 多 元 回 
回归 。 回 归 主 要 的 种 类 有 线性 回归 、 曲 线 回 归 、 二 元 


归 , 当 因 变 量 个 数 大 于 1 时 称 为 多 重 
Logistic 回归 及 多 元 Logistic 回归 。 


4.1.2 线性 回归 简介 













































































线性 回归 (linear regression) 是 利用 称 为 线性 回归 方程 的 最 小 平方 函数 对 一 个 或 多 个 


自 变量 和 因 变 量 之 间 关系 进行 建 模 的 一 种 回 








归 分 析 。 这 种 函数 是 一 个 或 多 个 称 为 回归 系数 





的 模型 参数 的 线性 组 合 。 回 归 分 析 中 ,如 果 只 包括 一 个 自 变量 和 一 个 因 变量 , 且 二 者 的 关系 
可 用 一 条 直线 近似 表示 , 则 这 种 回归 分 析 称 为 一 元 线性 

个 或 两 个 以 上 的 自 变量 , 且 因 变量 和 自 变 量 之 间 是 线性 关系 , 则 称 为 多 元 线性 回归 分 析 。 
【 例 4.1】 下 面 举 例 说 明 线性 回归 的 含义 ,假设 有 一 个 房屋 销售 的 数据 如 表 4-1 所 示 。 
dl 房屋 销售 数据 




















回归 分 析 。 如 果 回 归 分 析 中 包括 两 



































面积 /m? 售 价 /万 元 
123 250 
150 320 

87 160 
102 220 








对 于 一 个 全 新 面积 的 房屋 ,应 该 如 何 预测 其 售 价 呢 ? 可 以 用 一 条 曲线 去 尽量 准确 地 拟 
合 表 4-1 中 的 数据 ,如 果 有 新 的 面积 输入 ,采用 拟 合 的 函数 输出 其 售 价 。 为 了 描述 方便 ,下 
面 给 出 几 个 常见 的 概念 。 

CD 房屋 销售 记录 表 ( 表 4-1) : 即 训练 数据 集 (training data set) 。 房 屋面 积 是 模型 的 输 
入 数据 ,为 自 变量 x。 

(2) 房屋 销售 价格 : 输出 数据 , 因 变量 y。 

(3) 拟 合 函 数 (又 称 为 假设 或 模型 ): yh GO. 

(4) 训练 数据 的 条 目 : 一 条 训练 数据 由 一 对 输入 数据 和 输出 数据 组 成 ,维度 n 称 为 特 
征 个 数 ( 如 表 4-1 维度 为 1) 。 

线性 回归 假设 特征 和 结果 满足 线性 关系 ,每 个 特征 对 结果 的 影响 强 弱 由 特征 前 面 的 参 
数 体现 。 如 果 每 个 特征 变量 先 映 射 到 一 个 函数 ,然后 再 参与 线性 计算 ,这 样 就 可 以 表达 特征 
与 结果 之 间 的 非 线 性 关系 。 设 zi ,zx2，… ,zn RAN 个 特征 , 则 拟 合 函数 

h(x) h(x) Uo + 0121 Fiti t + Ont n 

S xo —1. MERAY S mM: 











hax) = OX 
其 中 ,0 是 参数 ,用 来 调整 每 个 特征 c Ain) Hy, RAIE hC) R RE 
行 评估 ,这 个 评估 函数 又 称 为 损失 函数 (loss function) 或 者 错误 函数 (error function), 称 之 
HJ 函数 。 


DY d(x? — y)*) 


i=1 


Jo = i 

min Jo 

ge gh 
Rpr” yO EA i UCU ARE dio Ned RA HC. dera? 9 TA ho Ce? 5 Sc pid y? HE 
的 平方 和 作为 错误 估计 函数 ,系数 1/2 是 为 了 求 导 方便 。 下 面 从 概率 的 角度 解释 为 什么 误 
差 函 数 要 采用 误差 平方 和 的 形式 。 假 设 预测 值 hs(x) 和 实际 值 ”有 误差 es” , 即 

y? = hex) +° 
一 般 来 说 ,误差 满足 平均 值 为 0 的 正 态 分 布 , 即 已 知 xz 时 ,y 的 条 件 概率 为 


po? | 2; @) 




















1 C? — gru) 
zzl 20° ) 

这 样 就 估计 了 一 条 样本 的 结果 概率 ,然而 我 们 期 待 的 是 模型 能 够 在 全 部 样本 上 预测 最 
准 , 即 概率 密度 函数 积 最 大 ,这 个 概率 积 成 为 最 大 似 然 估计 , 即 希望 在 最 大 似 然 估 计 得 到 最 


大 值 的 时 候 确定 参数 9, 需要 对 最 大 似 然 估 计 公 式 求 导 ,0 的 最 大 似 然 估计 个 满 足 : 
J = Jim. 220" — gray 
这 个 解释 大 概 说 明了 为 什么 误差 函数 需要 使 用 平方 和 ,解释 过 程 中 做 了 一 些 符合 客观 
规律 的 假设 。 如 何 调整 6 使 得 J(9) 取 最 小 值 有 很 多 方法 ,最 常用 的 是 最 小 二 乘法 和 梯度 下 
降 法 ,下 面 以 梯度 下 降 法 为 例 介绍 求解 过 程 。 
在 选 定 线性 回归 模型 后 需要 确定 参数 9。 采用 梯度 下 降 法 流程 如 下 。 
CD 对 9 赋 初 值 , 初 值 可 以 是 随机 值 ,也 可 以 是 全 零 向 量 。 
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(2) 改变 0 的 值 ,使 得 J(0) 按 梯度 下 降 的 方向 进行 减少 。 梯 度 方向 由 J(9) 对 9 的 偏 导 

数 确定 ,由 于 是 求 极 小 值 ,因此 梯度 下 降 方向 是 偏 导 数 的 反方 向 , 即 
0j: =O; Haly? — hex )) xf? 

迭代 更 新 的 方法 有 两 种 ,一 种 是 批 梯度 下 降 , 也 就 是 对 全 部 的 训练 数据 求 得 误差 后 再 对 
9 进行 更 新 ; 另 一 种 是 增 量 梯度 下 降 , 即 每 扫描 一 步 都 要 对 0 进行 更 新 。 前 一 种 方法 能 够 不 
断 收敛 ,后 一 种 方法 可 能 不 断 在 收敛 处 徘徊 。 

如 果 将 训练 特征 表示 为 时 矩阵 ,结果 表示 成 了 向 量 , 仍 然 采 用 线性 回归 模型 ,误差 函数 
不 变 , 则 可 采用 最 小 二 乘法 求解 0, 方法 如 下 。 

6 = (X'X)'x'y 
OH cz] — 36 i BE RR iE HE OX 是 列 满 秩 的 。 


4.2 逻辑 回归 


4.2.1 二 分 类 逻辑 回归 


逻辑 回归 (logistic regression) 本质 上 是 线性 回归 ,只 是 在 特征 到 结果 的 映射 中 加 入 了 
一 层 函 数 映射 , 即 先 把 特征 线性 求 和 ,然后 使 用 逻辑 回归 函数 g(>) 作 为 最 终 假设 函数 预测 ， 
g(x) 函 数 可 以 将 连续 值 映射 到 0 和 1 上 。 线 性 回归 的 假设 函数 只 是 b5X, 逮 辑 回归 的 假设 
函数 如 下 。 




















h(x) = g(OX) = 





1 
1 十 ex 
cp 
1te* 


逻辑 回归 用 来 处 理 0/1 问题 , 即 预测 结果 属于 0 或 1 的 二 值 分 类 问题 。 这 里 假设 二 值 
满足 伯 努 利 分 布 (假设 满足 泊 松 分 布 或 指数 分 布 都 可 以 ,会 涉及 下 面 的 一 般 线性 模型 ) , 即 ， 
Ply =1| x; 0) = h(x) 
P(y =0| xz; 0) =1— h(x) 
同样 地 , 求 最 大 似 然 佑 计 并 求 导 ,得 到 的 近代 公式 结果 为 
0j: = 0; - aC y? —hlx)) xf? 
可 以 看 出 ,与 线性 回归 类 似 ,只 是 这 里 的 hoCz”) 经 过 了 g(<) 映 射 。 需 要 说 明 的 是 ,地 
辑 回 归 的 函数 ORM g(<) 一 二 二 的 形式 有 一 套 理 论 作为 支撑 , 即 一 般 线性 模型 理论 ，。 


lte* 
如 果 一 个 概率 分 布 可 以 表示 为 
ply; 3p 一 0Cy)exp(CTTTCy) — aGp) 
这 个 概率 分 布 称 为 指数 分 布 。 伯 努 利 分 布 . 正 态 分 布 及 泊 松 分 布 等 都 属于 指数 分 布 。 
在 逻辑 回归 时 采用 的 是 伯 努 利 分 布 , 伯 努 利 分 布 的 概率 可 以 表示 如 下 。 
pos H= PAs) 
= exp( ylog? + (1— y)log(1 — $)) 


= exp( (loe(=*5))» + log 一 $)) 


gz) = 





























其 中 glog($/0.—9) ,因此 % 一 于 二 。 这 就 解释 了 逻 和 辑 回 归 的 gC) 为 什么 要 采用 这 种 
形式 。 
4.2.2 多 分 类 逻辑 回归 


上 一 小 节 主 要 介绍 二 分 类 逻辑 回归 问题 ,但 在 实际 问题 中 , 因 变 量 y 不 一 定 只 有 两 种 
情况 ,可 能 有 多 种 取 值 ,于 是 就 有 了 多 分 类 逻辑 回归 模型 ""。 设 y 有 c 个 取 值 ,从 0 到 c 一 1， 
并 且 y=0 是 一 个 参照 组 , 自 变量 m Gri eae xu) W y 的 条 件 概率 为 


BT) 























Py = k | x) = —— 
1 十 Mes 
i=l 
其 中 ==0,1,2,…,c 一 1。 由 此 可 以 得 出 相应 的 逻辑 回归 模型 : 
gir) = nf 513 ]- Bio + Baai + e+ Bex p 


显然 ,go(z) 一 0。 关 于 参数 估计 的 详细 内 容 可 参考 文献 [1]。 


4.2.3 ”逻辑 回归 应 用 举例 


【 例 4.2】 用 逻辑 回归 分 析 顾客 是 否 购买 人 造 黄油 与 人 造 黄油 的 可 涂抹 性 Xi 与 保质 
WX. 的 关系 。 并 依据 所 得 模型 ,判定 性 质 为 X53, X51 的 人 造 黄油 是 否 为 顾客 所 要 购 
买 的 黄油 。 该 数据 如 表 4-2 所 示 。 

表 42 ”人造 黄 油 数据 表 

































































Wo * 可 涂抹 性 X: 保质 期 X。 是 否 购买 黄油 y 
1 2 3 1 
2 3 4 1 
3 6 5 1 
4 4 4 1 
5 3 2 1 
6 4 7 1 
7 3 5 1 
8 2 4 1 
9 5 6 1 
10 3 6 1 
1 3 3 1 
12 4 5 1 
13 5 4 0 
14 4 3 0 
15 7 5 0 
16 3 3 0 
17 4 4 0 
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BR 
顾 客 可 涂抹 性 Xi 保质 期 Xz 是 否 购买 黄油 y 
18 5 2 0 
19 4 2 0 
20 5 5 0 
21 6 7 0 
22 5 3 0 
23 6 4 0 
24 6 6 0 
解 : 





设 逻 辑 回 归 模 型 为 











| z = bo bia d brs 
J 7 __e 
[po = 1+e 


所 以 , 似 然 函数 为 


24 而 » 3 1-», 
b= (rs) (rw) 
JE rp ya eai OO ,xz(k) 分 别 表示 第 个 顾客 对 应 的 可 涂抹 性 XX1 ,保质 期 X: ,在 是 否 购买 人 
造 黄油 ,zi 三 bo 十 Dizi1(k) 十 box2z (kk)。 
oR ff max L 


io hi b; 








| 528 
ag =1. 943 








b; —1.119 
则 逻辑 回归 模型 为 
f = 3.528 — 1.94321 + 1.11922 
= = e 
[py =D loce 


该 模型 用 于 预测 的 混淆 矩阵 如 表 4-3 所 示 。 
表 4-3 已 知人 造 黄油 的 混淆 矩阵 表 


























预测 购买 预测 不 购买 
实际 购买 10 2 
实际 不 购买 2 10 
正确 率 为 0. 883。 
. . e e? 528-1. 943X 31. 119X 1 
4 OX,—3.X,—1 时 ,p(y=1) Ite qp gm omaia 7 0. 765370. 5 


则 可 认为 该 人 造 黄油 是 顾客 所 要 购买 的 黄油 。 


4.2.4 ”逻辑 回归 方法 的 特点 


逻辑 回归 方法 有 下 列 优 点 。 

(1) 预测 结果 是 介 于 0 和 1 之 间 的 概率 。 

(2) 可 以 适用 于 连续 性 和 类 别 性 自 变 量 。 

(3) 容易 使 用 和 解释 。 

逻辑 回归 的 缺点 如 下 。 

CD 对 模型 中 自 变量 多 重 共 线性 较为 敏感 。 例 如 ,两 个 高 度 相关 自 变量 同时 放 入 模型 ， 
可 能 导致 较 弱 的 一 个 自 变量 回归 符号 不 符合 预期 ,符号 被 扭转 。 需 要 利用 因子 分 析 或 者 变 
量 聚 类 分 析 等 手段 选择 代表 性 的 自 变量 ,以 减少 候选 变量 之 间 的 相关 性 。 

(2) 预测 结果 呈 S 形 , 因 此 从 log(odds) 向 概率 转化 的 过 程 是 非 线性 的 ,在 两 端 随 着 log 
(odds) 值 的 变化 ,概率 变化 很 小 ,边际 值 太 小 ,斜率 太 小 ,而 中 间 概 率 的 变化 很 大 ,很 敏感 。 
导致 很 多 区 间 的 变量 变化 对 目标 概率 的 影响 没有 区 分 度 ,无 法 确定 阔 值 。 


4.2.5 ”逻辑 回归 方法 的 应 用 


逻辑 回归 方法 在 日 常生 活 中 应 用 非常 广泛 ,下 面 举 例 说 明 该 方法 的 应 用 情况 。 

1. 利用 罗 辑 回归 方法 进行 微 博 用 户 可 信 度 的 建 模 

文献 [2] 针对 微 博 虚 假 用 户 问 题 ,以 新 浪 微 博 为 研究 平台 对 微 博 用 户 的 行为 进行 分 析 ， 
从 在 线 时 长 ,发帖 时 间 、 互 动 程度 等 方面 ,提取 用 于 区 分 用 户 类 别 的 特征 变量 ,运用 人 逻辑 回归 
算法 ,提出 一 个 基于 逻辑 回归 的 微 博 用 户 可 信和 度 评价 模型 。 实 验 结果 表明 ,该 模型 能 够 对 传 
统 的 虚假 用 户 “ 伪 尸 粉 ”进行 识别 ,对 新 型 虚假 用 户 有 较 高 的 识别 率 ,可 以 根据 置信 值 的 大 小 
对 用 户 进行 大 致 分 类 ,实用 性 较 强 。 

2. 利用 逻辑 回归 方法 识别 水 军 

随 着 诸如 twitter 和 微 博 等 新 媒体 的 发 展 ,由 于 网 络 公关 与 营销 等 原因 ,网 络 水 军 也 出 
现 并 呈现 出 急剧 增加 的 态势 。 造 成 大 量 的 网 络 资源 和 普通 用 户 的 时 间 遭 到 侵占 ,同时 也 对 
与 情 真实 性 产生 了 重要 影响 。 文 献 [3j 建 立 了 一 种 基于 逻辑 回归 算法 的 水 军 识别 模型 ,利用 
累计 分 布 函数 (CDF) 对 新 浪 微 博 用 户 行为 属性 及 账号 属性 进行 分 析 和 选取 ,将 合适 的 属性 
包括 好 友 数 、 粉 丝 数 、 文 本 相似 度 、URL 率 等 作为 输入 参数 ,用 以 训练 基于 逻辑 回归 算法 的 
分 类 模型 ,得 到 相应 系数 ,从 而 完成 对 网 络 水 军 识 别 模型 的 构建 。 实 验 结果 证 明了 模型 的 准 
确 性 和 有 效 性 。 

3. 利用 罗 辑 回归 方法 进行 垃圾 邮件 过 滤 

垃圾 邮件 过 滤 是 网 络 信息 处 理 中 的 重要 问题 ,基于 机 器 学 习 方 法 的 垃圾 邮件 过 滤 技 术 
是 目前 的 研究 热点 。 文 献 [4 将 垃圾 邮件 过 滤 问 题 转化 成 排序 问题 进行 建 模 ,提出 了 在 线 排 
序 逻 辑 回归 学 习 算 法 ,解决 了 在 线 学 习 中 的 邮件 得 分 偏 移 问 题 ; 综合 应 用 TONE 算法 和 重 
采样 技术 ,提出 参数 权重 更 新 算法 ,解决 模型 学 习 中 在 线 调 整 模型 参数 时 的 处 理 速度 问题 ， 
满足 垃圾 邮件 实时 过 滤 的 要 求 。 
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4.3 ”逻辑 回归 源 代码 结果 分 析 


4.3.1 线性 回归 
线性 回归 的 源 代码 如 下 ,相关 程序 和 实验 数据 可 从 github 中 下 载 ,网 址 为 https:// 


github. com/guanyaol/linearRegressionAnalysis. git. 








package logicregression. linearRegressionAnalysis; 
public class LinearRegression { 
private static int chlk(double[] a, int n, int m, double[] d) { 
int u, v; 
if ((a[0] + 1.0 == 1.0) || (a[0] «0.0)) { 
System. out. println(" 失 败 了 …… "); 
return (- 2); 
} 
a[0] = Math. sqrt(a[0]); 
for (int j = 1; j<= n - 1; j++){ 
alj] = a[3] / alo]; 
j 
for (inti = 1; i<= n- 1; itt) ( 
u=i*n+t i; 
for (int j = 1; j<= i; j++) { 
v-2(j-1)*n*i 
a[u] = a[u] - a[v] * a[v]; 
} 
if ((a[u] + 1.0 == 1.0) || (a[u] «0.0)) { 
System. out. println(" A We f 111"); 
return (-2); 
} 
a[u] = Math. sqrt(a[u]); 
if (i != (n- 1)) { 
for (int j = i+ 1; j<=n- 1; j++) { 
veixntj; 
for (intk = 1; k<= i; k++){ 
a[v] = a[v] - al((k - 1) * n+ i] * al(k- 1) * n + j]; 
} 
a[v] = a[v] / a[u]; 


} 

for (int j = 0; j<= m - 1; j++) { 
d[3] = d[j] / alo]; 
for (int i = 1; i<= n- 1; i+) { 


u= i*n+t i; 


n) { 


} 


v-i*smt*j 
for(intk = 1; k«- i; k++) 

d[v] = div] - al(k - 1) » n + i] * d((k - 1) x m + j]; 
div] = d[v] / a[u]; 


) 
for (int j = 0; j<= m - 1; j++) ( 
u=(n-1) «mt j; 
d[u] = d[u] /a[n * n - 1]; 
for (intk = n - 1; k>= 1; k--)( 
u=(k-1)* mt j; 
for (int i = k; i<= n - 1; i++) { 
v=(k- 1) *n+ i; 
d[u] = diu] - a[v] * d[i * m + j]; 
) 
六 2(k= 1) 2 et k= fF 
d[u] = d[u] / afv]; 


i 


return (2); 


/ * 多 元 线性 分 析 

* Qparam x[n][n] ”每 一 列 存放 m 个 自 变 量 的 观察 值 

* @param y[n] 存放 随机 变量 y 的 n 个 观察 值 

* (paran dt[4] dt[0] :偏差 平方 和 q, dt [ 1] :平均 标准 偏差 s, dt[2]: 返 回复 相 关系 数 r, 


dt[3] :3& [Bl EH FAM r 


* @paran v[] 返回 m 个 自 变量 的 偏 相关 系数 
* param a[ ] 返回 回归 系数 al,a2, … ,an 

* @param m 自 变 量 的 个 数 

* @param n 观察 数据 的 组 数 

«/ 


public void sqt(double[][] x, double[] y, double[] dt, double[] v, double[] a, int m, int 


int mm; 
double q, e, u, p, yy, S, r, pp; 
double[] b = newdouble[(m + 1) * (m + 1)]; 
mm = m + 1; 
b[mm x m — 1] = n; 
for (int j = 0; j<m - 1; j++) { 
p = 0.0; 
for (int i = 0;i«- n- 1; i++) { 


p = p + x[3lil; 


} 
b[m x* mm + j] = p; 
b[j * mm + m] = p; 
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} 
for (int i = 0; i«m - 1; i++) { 
for (int j = i; j<= m - 1; j++) f 
p = 0.0; 
for (int k = 0; k<= n- 1; k++) { 
p = p + x[i][k] * x[j][k]; 

} 
b[j * mm + i] = p; 
bli * mm + j] = p; 


} 
a[m] = 0.0; 
for (int i = 0; i<n - 1; i++) { 
a[n] = a[m] + y[i]; 
} 
for (int i = 0; iim - 1; i++) { 
a[i] = 0.0; 
for (int j = 0; j<= n- 1; j++) { 
ali] = ali] + x[i][j] * ylils 


j 

chlk(b, mm, 1, a); 

yy = 0.0; 

for (int i = 0; i<n - 1; i++) { 


yy = yy + yli] /n; 


i 

q = 0.0; 
e = 0.0; 
u = 0.0; 


for (int i = 0; i<= n - 1; i++) ( 
p = a[n]; 
for (int j = 0; j<= m - 1; j++) 
p= p+ alj] * x[3]l il; 
a+ (y[i] - p) * (y[i] - p); 
e + (y[i] - vy) * (vyli] - yy); 
= u + (yy - p) * (yy - p); 


B 
1 


s = Math. sqrt(q / n); 
r = Math. sqrt(1.0 - q/e); 
for (int j = 0; j<= m - 1; j++) { 
p = 0.0; 
for (int i = 0; i<= n - 1; i++) { 
pp = alm]; 
for (int k = 0; k<= m - 1; k++) 
if (k != j) 


pp = pp + a[k] * x[k][i]; 
p= p+ (yli] - pp) * (y[i] - pp); 


} 
v[j] = Math. sqrt(1.0 - q / p); 
} 
dt[0] = q; 
dt[1] = s; 
dt[2] = r; 
dt[3] = u; 


} 
/ * @param args 
«/ 
public static void main(String[ ] args) { 
/* 多 元 回归 
«/ 
double[ ] a = new double[4]; 
double[] v = new double[3]; 
double[] dt = new double[4]; 


double[ ][] x = { ( 1.1, 1.0, 1.2, 1.1, 0.9}, 
(2:0,:2.6, 1,8, 179; 2:11 Jy 
(3:2, 3.2, 3:0, 2:9, 2:9 } ); 

double[] y = ( 10.1, 10.2, 10.0, 10.1, 10.0 }; 

LinearRegression lr - new LinearRegression(); 

lr. sqt(x, y, dt, v, a, 3, 5); 

for (int i = 0; i<= 3; i++){ 

System. out. println("a(" + i+ ")-" + a[i]); 


} 


System. out. printIn("q=" + dt[0] +" s=" + dt[1] +" 


for (int i = 0; i<= 2; i++){ 
System. out. println("v(" + i+ ")=" + v[i]); 

J 

System. out. println("u=" + dt[3]); 


上 述 代码 的 运行 结果 如 图 4-1 所 示 。 
F 4 对 自 变 量 和 因 变 量 (前 面 的 是 自 变量 ,后 面 的 是 因 变 量 ) 通 过 一 元 线性 回归 可 以 


* 





r=" + dt[2]); 





得 到 当前 的 数据 点 的 数目 为 5, 多 有 的 自 变量 的 和 为 15, 所 有 因 变 量 的 和 为 700, 自 变量 的 
平方 的 值 为 55, 自 变量 和 因 变 量 的 乘积 为 2121, 因 变量 的 平方 的 值 为 98 142 ,统计 得 出 了 回 
归 线 的 公式 以 及 最 后 得 到 的 误差 值 。 


4.3.2 多 分 类 逻辑 回归 














多 分 类 逻辑 回归 源 代码 包括 3 个 文件 , 即 DataPoint. java, LinearRegression. java 和 
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输入 数据 : 运行 结果 输出 : 
RAT n= 5 
um x = 15.0 
Sum y = 700.0 
as Lb 
died Mum piis 98142.0 
,132 UN Y 
peas ARRA: y = 2.1x + 133.7 
[5,147 N 
误差 : R^2 = 0.3658 


(a) (b) 
图 4-1 线性 回归 程序 运行 结果 


RegressionLine.java。 源 程序 可 从 清华 大 学 出 版 社 网 站 下 载 。 
1. DataPoint. java 


package logicregression. multipleLinearRegressionAnalysis; 
/ * jE X —^* DataPoint 类 ,对 坐标 x 和 y 点 进行 封装 

*/ 
public class DataPoint { 





public float x; 

public float y; 

public DataPoint(float x, float y) { 
this.x = x; 
this.y = y; 

} 

} 


2. LinearRegression, java 


package logicregression. multipleLinearRegressionAnalysis; 
public class LinearRegression { 
private static final int MAX POINTS - 10; 
private double E; 
public static void main(String[] args) ( 
RegressionLine line = new RegressionLine(); 
line. addDataPoint(new DataPoint(1, 136)); 
line. addDataPoint(new DataPoint(2, 143)); 
line. addDataPoint(new DataPoint(3, 132)); 
line. addDataPoint(new DataPoint(4, 142)); 
line. addDataPoint(new DataPoint(5, 147)); 
printSums(line); 
printLine(line); 
} 
/* 打印 和 
* @param line 回归 线 
*/ 


private static void printSums(RegressionLine line) { 
System. out. printIn("\n 数据 点 个 数 n = ”+ line. getDataPointCount()); 
System. out. println("\nSumx = " + line. getSumX()); 
System. out.println("Sumy = " + line. getSumY()); 
System. out. println("Sum xx = " + line. getSumXX()); 
System. out. println("Sum xy = " + line. getSumXY()); 
System. out. println("Sum yy = " + line. getSumYY()); 
} 
/ x 打印 回归 线 功能 
* @param line 回归 线 
«/ 
private static void printLine(RegressionLine line) { 
System. out. println("\n 回归 线 公 式 : y = " + line.getAl() + "x + " 
+ line. getA0()); 
System. out. println(" ix #: R^2 = " + line. getR()); 


} 
3. RegressionLine, java 


package logicregression. multipleLinearRegressionAnalysis; 
import java. math. BigDecimal; 
import java. util. ArrayList; 
public class RegressionLine { 
/* x 的 数量 x7 

private double sumX; 

/* 了 的 数量 * / 

private double sumY; 

/* x 的 平方 的 值 * / 

private double sumXX; 

/* x 乘 以 y 的 值 */ 
private double sumXY; 

/* 了 的 平方 的 值 * / 

private double sumYY; 

/ * sunDeltaY 的 平方 的 值 x / 
private double sumDeltaY2; 
/< 误差 */ 

private double sse; 

private double sst; 

private double E; 

private String[ ] xy; 

private ArrayList listX; 
private ArrayList listY; 
private int XMin, XMax, YMin, YMax; 
/x* 线 系数 a0 */ 

private float a0; 
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/* E / 

private float al; 

/* 数 据点 数 / 

private int pn; 

/*iRRMEBAM / 

private boolean coefsValid; 

// 构 造 函数 

public RegressionLine() { 
XMax = 0; 


pn = 0; 
xy = new String[2]; 
listX = new ArrayList(); 
listY = new ArrayList(); 
上 
/* 返 回 当前 数据 点 的 数目 
* @return 当前 数据 点 的 数目 
*/ 
public int getDataPointCount() { 
return pn; 
} 
/* 返回 线 系数 a0 
*/ 
public float getA0() { 
validateCoeff icients() ; 
return a0; 
} 
/* 返 回 线 系数 al 
*/ 
public float getA1() { 
validateCoefficients(); 
return al; 
} 
public double getSumX() { 
return sumX; 
} 
public double getSumY() { 
return sumY; 
} 
public double getSumXX() { 
return sumXX; 
} 
public double getSumXY() { 
return sumXY; 


public double getSumYY() { 
return sumYY; 


} 
public int getXMin() { 


return XMin; 


} 

public int getXMax() { 
return XMax; 

} 


public int getYMin() { 


return YMin; 


i 
public int getYMax() ( 
return YMax; 
} 
/ * 计算 方程 系数 Y=ax+b 中 的 a 
«/ 


private void validateCoefficients() { 
if (coefsValid) { 
return; 
} 
if (pn>= 2) { 
float xBar = (float) (sumX / pn); 
float yBar = (float) (sumY / pn); 


al = (float) ((pn * sumXY — sumX * sumY) / (pn * sumXX - sumX* sumX)); 


a0 - (float) (yBar - al * xBar); 
) else ( 

a0 = al = Float. NaN; 
) 


coefsValid - true; 


) 
/x* 添加 一 个 新 的 数据 点 : 改变 总 量 
*/ 
public void addDataPoint(DataPoint dataPoint) { 
sumX += dataPoint. x; 
sumY += dataPoint. y; 
sumXX += dataPoint.x * dataPoint.x; 
sumXY *- dataPoint.x * dataPoint.y; 
sumYY *- dataPoint.y * dataPoint.y; 
if (dataPoint.x>= XMax) { 
XMax = (int) dataPoint. x; 
) 
if (dataPoint. y» - YMax) { 
YMax - (int) dataPoint. y; 
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// 把 每 个 点 的 具体 坐标 存 入 ArrayList 中 ,备用 

xy[0] (int) dataPoint.x + ""; 

xy[1] 7 (int) dataPoint.y + ""; 

if (dataPoint. x != 0 && dataPoint.y != 0) { 
System. out. print(xy[0] + ","); 


System. out. println(xy[1]); 
try { 

listX. add(pn, xy[0]); 

listY. add(pn, xy[1]); 
} catch (Exception e) { 

e. printStackTrace() ; 


} 
++pn; 
coefsValid = false; 
} 
/< 返回 x 的 回归 线 函数 的 值 
«/ 
public float at(int x) { 
if (pn« 2) 
return Float. NaN; 
validateCoefficients(); 
return a0 + al * x; 
) 
public void reset() ( 
pn = 0; 
sumX = sumY = sumXX = sumXY = 0; 
coefsValid - false; 
} 
/* 返回 误差 
*/ 
public double getR() { 
// 遍 历 这 个 List 并 计算 分 母 
for (int i = 0; i<pn - 1; i++) { 
float Yi = (float) Integer. parseInt(listY.get(i).toString()); 
float Y = at( Integer. parseInt(listX.get(i).toString())); 
float deltaY = Yi - Y; 
float deltaY2 = deltaY * deltaY; 
sumDeltaY2 += deltaY2; 
} 
sst = sumYY - (sumY + sumY) / pn; 
E = 1 - sumDeltaY2 / sst; 
return round(E, 4); 
} 
// 用 于 实现 精确 的 四 舍 五 入 
public double round(double v, int scale) { 
if (scale« 0) ( 
throw new IllegalArgumentExcept ion( 


"这 个 比例 必须 是 一 个 正 整 数 或 零 "); 
} 
BigDecimal b = new BigDecimal(Double. toString(v) ); 
BigDecimal one = new BigDecimal("1"); 
return b. divide(one, scale, BigDecimal. ROUND HALF UP).doubleValue(); 
// 向 "最 接近 的 "数字 舍 入 , 如果 与 两 个 相 邻 数字 的 距离 相等 , 则 为 向 上 舍 入 的 舍 入 模式 
$ 
public float round(float v, int scale) { 
if (scale < 0) { 
throw new IllegalArgumentException( 
"这 个 比例 必须 是 一 个 正 整 数 或 零 "); 
} 
BigDecimal b = new BigDecimal(Double. toString(v)); 
BigDecimal one = new BigDecimal("1"); 
return b.divide(one, scale, BigDecimal. ROUND HALF UP). floatValue(); 


} 
程序 运行 界面 如 图 4-2 所 示 。 

输入 数据 : 运行 结果 输出 : 
(0)753.42 
(1)=98. 78999999999999 
(2)-0.0 
(3)740.4| 
393756.25257799996 s=280.6265320948823 r=NaN 
(0)-NaN 
(1)*NaN 
{2)=0.0 
=399388.454698 


(a) (b) 
图 4-2 多 分 类 逻辑 回归 程序 运行 界面 


从 运行 结果 可 以 看 出 回归 系数 a 的 值 依次 是 53. 42、98. 789 999,0. 0,40. 4; 偏差 的 平 
方 和 g 的 值 为 393 756. 2525; 标准 平方 差 的 值 s 为 280. 626; 复 相关 系数 7 的 值 是 NaN; A 
变量 的 偏 相关 系数 分 别 是 NaN, NaN 和 0. 0; 最 后 得 出 的 是 回归 平方 和 w 的 值 是 
399 388. 4546 。 


4.4 ”基于 阿里 云 数 加 平台 的 逻辑 回归 实例 


4.4.1 二 分 类 逻辑 回归 应 用 实例 


对 于 表 bank data 进行 逻辑 回归 二 分 类 的 操作 ,分 类 算法 总 体 目的 是 通过 训练 有 标签 
数据 ,来 给 无 标签 数据 赋 标 签 ,二 分 类 只 是 标签 只 有 两 个 的 特殊 情况 。 而 表 bank data 只 是 
一 个 信息 表 , 可 以 把 某 一 列 视 为 标签 列 ,通过 拆 分 组 件 的 功能 ,一 部 分 用 来 训练 ,一 部 分 用 来 
预测 。 其 实 , 正 常情 况 下 ,需要 预测 的 数据 是 没有 标签 的 ,这 时 便 可 以 使 用 训练 过 后 的 训练 
数据 给 预测 签 数 据 赋 标签 。 而 这 里 , 拆 分 过 后 的 预测 数据 相当 于 也 是 有 标签 的 , 便 可 以 预测 
其 标签 ,然后 与 真实 标签 进行 对 比 ,得 出 该 分 类 算法 的 准确 率 等 相关 信息 。 阿 里 云 机 器 学 习 
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平台 使 用 分 类 算法 的 目的 大 多 是 以 上 两 种 思路 ,后 面 的 分 类 算法 大 多 如 此 。 其 中 ,二 分 类 逻 
辑 回归 便 是 属于 后 者 。 
Ome ð X bank. data 的 详细 信息 第 2 章 已 经 提 及 。 流 
程 图 如 图 4-3 所 示 , 由 于 逻辑 回归 本 身 就 属于 计算 概 
[ 率 来 进行 分 类 ,因此 ,最 好 将 数据 归 一 化 ,将 归 一 化 
° 后 的 数据 进行 拆 分 ,一 部 分 用 来 进行 训练 ,一 部 分 进 
A a O 行 预测 ,从 图 中 可 以 看 到 , 拆 分 组 件 下 面 有 两 根 线 ， 
— e. ð 分 类 算法 组 件 中 进行 训练 ,右边 的 线 与 逻辑 回归 二 
P, 分 类 组 件 的 线 一 起 连 入 预测 组 件 则 表示 用 训练 过 后 
( 的 训练 数据 给 拆 分 过 后 的 预测 数据 赋 标 签 。 最 后 的 
5 结果 用 混淆 矩阵 呈现 出 来 。 
图 4-3 ”逻辑 回归 二 分 类 流程 图 逻辑 回归 二 分 类 的 字段 信息 与 参数 设置 如 图 4-4 
所 示 , 假 设 列 y 为 标签 列 ,因为 该 列表 示 “ 是 否 有 定期 
存款 ”, 只 有 两 种 不 同 的 数据 值 ,正好 用 来 做 二 分 类 ,因此 目标 列 选择 y。 训 练 特征 列 只 能 选 
择 double 和 int 类 型 字段 ,这 里 选择 的 是 所 有 的 符合 条 件 的 归 一 化 后 的 字段 。 参 数 设置 先 
择 的 默认 参数 ,根据 需要 也 可 调整 ,其 中 ,正则 项 有 None,L1,L2 3 种 ,是 不 同 的 防止 过 拟 合 
的 方法 。 






















































































ce smem nai EWA TE 
None * 
VESERA 必 迁 支持 Doublennt 弄 地 侵 
ERROR saian 
100 
目标 列 pix 
P 正则 系数 Gi 正则 尖 型 为 None 时 此 值 无 效 
1 
正 类 值 25% eg. 011 分 类 中 1 是 正美 
i aare 
0.000001 
SERIE kv cv 类 型 特征 
(a) (b) 


图 4-4 逻辑 回归 二 分 类 方法 的 设置 界面 


拆 分 的 参数 设置 如 图 4-5 所 示 ,为 训练 数据 与 预测 
数据 的 比例 ,这 里 选择 的 是 0.7。 

预测 的 字段 设置 如 图 4-6 所 示 , 特 征 列 的 选择 Gast 表 1 占 局 da 的 比 殉 范围 (0,1) 
图 4-4 中 特征 列 选 择 一 致 ,原样 输出 列 选择 的 是 标签 列 | 07 
y, 最 后 3 项 是 默认 的 结果 输出 列 名 ,也 可 自行 命名 。 

混淆 矩阵 的 字段 设置 如 图 4-7 所 示 , 它 是 一 个 可 视 图 4-5 拆 分 方法 的 设置 界面 
化 工具 。 原 数据 的 标签 列 列 名 选择 的 是 y, 预 测 结果 的 








“标签 列 * 与 “详细 列 ” 这 两 个 参数 不 能 共存 ,如 指定 阔 值 , 则 应 自己 命名 预测 结果 的 详细 列 列 


名 ,并 





指定 正 样本 的 标签 值 。 
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prediction score 
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prediction detail 
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图 4-6 预测 方法 的 设置 界面 






































图 4-7 混淆 矩阵 方法 的 设置 界面 


预测 组 件 的 实验 结果 如 图 4-8 所 示 , 预 测 结果 展示 的 是 预测 集 进行 预测 得 到 不 同 标签 
的 概率 。 如 第 一 行 ,样本 真实 标签 为 “0”, 预测 标签 为 “0” 的 概率 为 0. 964, 为 “1” 的 概率 为 
0.036; 因此 , 取 0.964, 预 测 该 样本 标签 为 “0”。 


0.9637856160283. 
0.8943437149809... 
0.9699556975638... 
0.8764930218471... 
0.947803218268248 
0.8669427586128... 
0.9598956920041 
0.9625913556977. 
0.8556344729114.. 
0.9655674393430. 
0.9441553485010... 


>o o ooooooooooooa o 


0.8505428738122... 
0.8539415929646.. 

0.7422351581784. 
0.9740755981787... 


0.9344448140553... 
n ORARRITINANSA 


ələļo -|olo|lolol olo olo olo oWo 


mado seore ~ pagent 


{70° 0.9637856160283249, "1": 0.0362143839716751} 
(70*: 0.3056562850190917, "1". 0.6943437 149809083} 


(707: 0.9699556975638698, "1": 0.0: 

= (707: 030565628! 
{70° 0.8764930218471138, “1":0.1235( 0 694343714980; 
(707: 0.947803218268248, ^1" 0.0521! 


(70: 0.8669427586128203, "1": 0.1330572413871796} 
(70": 0.9598956920041128, "1": 0.04010430799588717] 
(707. 0.9625913556977236, "1" 0.03740864430227647) 
(707: 0.8556344729114088, "1". 0.1443655270885912} 
{70° 0.9655674393430479, "1": 0.03443256065695215) 
(707: 0.9441553485010012, "1": 0.05584465149899878] 
(707: 0.8505428738122986, "1" 0.149457 1261877014} 
(707: 0.8539415929646736, "1" 0.1460584070353264) 
(707 0.7422351581784865, "1 0.2577648418215134) 
(707: 0.9740755981787624, “1~ 0.02592440182123758) 
(707: 0.9344448140553643, "1": 0.06555518594463569] 


170" 0 ORARR2TADRORO157 "1* N 1351172 60204084241 





图 4-8 预测 组 件 的 实验 结果 


从 混淆 矩阵 的 统计 信息 里 可 以 评估 模型 的 准确 率 等 参数 ,如 图 4-9 所 示 。 


从 模型 中 可 以 查看 训练 好 的 逻辑 回 





H= 


分 类 模型 ,如 图 4-10 所 示 。 
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em. Gea dmm. Site =. Ee BEER. Fina 
o 10943 qur 12090 89.942% 90.513% 99041% 94.585% 
1 262 106 368 89942% 71.196% 18.595% 29.488% 


图 4-9 混淆 和 矩阵 组 件 的 实验 结果 











逻辑 回归 输出 
1a [oa 
normalized_pdays -1842402515361233 
normalized_previous -1670110722281339 


normalized emp var rate | -2 179331792823033 
normalized cons price idx 1.427087047313672 

normalized cons conf idx — 1.107938590414767 

normalized euribor3m 0.04409408716561091 

normalized nr employed 。 -1.402082882863799 

normalized age 0.2753965558867318 

1. PAFFEISOUISESRISIHOI RET 53569 , SERRORRESROneVSAII , 因此 在 多 分 类 的 情况 
下 ,会 出 现 多 个 方程 ， 每 个 方程 针对 目标 特征 的 某 个 value 值 ， 即 权重 ( weight ) 下 方 对 应 的 列 
*: 


2、 膛 缉 回归 的 完整 公式 为 : o(z) = 1/(1* exp(-z)) : Z=wO+ wi*xtew2*x2*.. + wm" 
xm. (其 中 X1,)2, -, xm 是 某 样 本 数据 的 各 个 特征 ，w1, w2, 是 符 征 的 权重 值 ) 


[=a 








PA 4-10 逻辑 回归 输出 


4.4.2 多 分 类 逻辑 回归 应 用 实例 


逻辑 回归 多 分 类 流程 图 如 图 4-11 所 示 , 该 组 件 也 可 进行 二 分 类 操作 , 当 该 组 件 做 多 分 
类 操作 时 ,需要 选择 有 多 值 的 列 作 为 标签 列 ,previous 列 满足 此 条 件 , 因 此 设 其 为 标签 列 。 


bank daa ©) 
拆 分 -2 e 
massae. ©) 


Ors © 


图 4-11 逻辑 回归 多 分 类 流程 图 


其 中 ,逻辑 回归 多 分 类 的 字段 设置 和 参数 设置 如 图 412 所 示 , 除 了 将 目标 列 改 为 
previous 列 , 其 他 与 逻辑 回归 二 分 类 的 设置 一 致 ,这 里 不 再 袭 述 。 



























































图 4-12 逻辑 回归 多 分 类 方法 设置 界面 


预测 组 件 得 到 的 结果 如 图 4-13 所 示 。 


[predicion resulte  predidion_scorea predicion_detall a 
0.9171087304043. (707: 0.9171087304043734, 
0.9910072201144... | ("0° 0.9910072201144109, 





0.09286609678976802, "2" 0.0002199318288860513, "3": 4.3833475889864... 
.009837398180320799, "2": 3.844547690417482e-05, "3": 5.357969131260... | 
0.6648318524656... | ("0~ 0.6649318524656754, "1": 0.3149744899094324, "2": 0.01811324358 109297, "3": 0.0006737398220893... | 
0.6653645708905... ("0° 0.6663645708905497, 1136754565804028, "2": 0.01866720437501295, "3": 0.0006875116557745... 
0.9841247004561... | (70 0.9841247004561563, "1" 0.01287883536494262, "2" 6.864833346084681e-05, "3" 1.2908095210568... 
0742104102390657 | ("0~ 0,742104102300867, "T" 0.2447465487541765, "2" 0.016458084511222, “3- 0.0007967852103548327. 
0.8167450119999... | ("0% 0.8167450119999072, "1" 0.1880132896068601, "2": 0.01469640483947962, "3": 0.0005611246884559... 
0.9833168862832 . | ("0" 0,9833168862832321, "T 0.01352786077 123254, "7-6 9809883806401260-05, "3": 1 3385053042220. 
0.9879039562723... | {"0" 0.9879039562723315, "1" 0.01305371221036549, "Z- 4.3625602464152376-05, "3" 5.1895150697041 
0.9837707465253.. | ("0% 0.9837707465253062, 1 0.01720241517277895, "2" 5.096473259483043e-05, "3": 4.4557944605742... 
0.9860753081886... | (700.9860753081886684, "1* 0.01486959494314224, "Z 4 7772453566074376-05, "3- 4.5741530472507. 
0.5499373671320... | ("0 0.5499373671320485, "1": 0.3293304897824758, "2": 0.06289005357318561, "3* 0.0099534116579731... 
0742362004058. . | (0~ 0 6742362994956456, "1": 0.3057744321880053, "2" 001811757740821807, "3" 0 0006466466554541. 
0.6804477009964... | (70:0.6804477009964867, "1" 0.3015917324763912, "2": 0.0182267361494518, "3" 0.00076930790784984... 
0.984521607947193 | ("0" 0.984521607947 193,“1~ 0.01649086316211 188, "2": 4904805504506203e 05 "3" 4.84780425030735.. | 
0.9844097588517.. | ("U- 0.9844097588517742,"1- 0 010524988 1980249, 7" 4.445457288351488e-05, "3~ 3 19563827833238 | 
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图 4-13 预测 组 件 的 实验 结果 
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混淆 矩阵 中 的 标签 统计 信息 如 图 4-14 所 示 。 
从 模型 中 查看 训练 好 的 逻辑 回归 多 分 类 模型 如 图 4-15 所 示 。 
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ena ‘Site =. NE = 召回 幸 ~ Pt. 
o 1195 11830 89891% 89.899% 99495% 94454% 
1 248 503 89276% 50.696% 19144% 27793% 
2 n 10 21 98.057% 52381% 4554% 8397% 
3 o 1 1 99.482% 0% o% 0% 
4 o o o 89806% ox o% ox 
5 o o o 99.968% ox o% 0% 
6 o o 0 99984% ox o% 0% 


图 4-14 混淆 矩阵 组 件 的 实验 结果 





pez ICEL hss] ux 
FRE "x 
s 0a 1a 2a 3a da 5a ba Ta 
emp. 094. -16. 03. -19 198.. 128. ~468.. -154 


cons 509 -50 1.08... | 1987272447557774 981 340. 5484 


cons.. 741. -73.. 066. 014. 445. 207. 297. -673 
euri... -47.. 405. -71.. -85.  -T1.. -293.. 458.. 3169 
Me... 854. -60. -04.  -43.. -08.. 970.  -293.. -700 
age — -03. 029. 031. -05. 003. -166.. 018.. 335.. 
y 053.. -04. 01. -02. -05. 028. -132. -773.. 
pdays 143... -20.. -19.. -23.. -34.  -239.. -A77.. -132 
1. PAFFÉISGUSIESISIGETRET- 57368) , SERESSERESEOneVsAII ,因此 在 多 分 类 的 情况 


下 ,会 出 现 多 个 方程 ， 每 个 方程 针对 目标 特征 的 其 个 value 值 , 即 权重 ( weight ) 下 方 对 应 的 列 
和 名; 


2、 怖 园 回 归 的 完整 公式 为 : o(2) - 1/(1* expz) : Z=wO*+w1*x1+w2*x2+..+wm™ 
Xm。【〔 其 中 x1,x2, .… xm 是 其 样 本 数据 的 各 个 特征 w1, w2, ... 是 符 征 的 权重 值 ) 








图 4-15 逻辑 回归 输出 


4.5 小 结 





器 归 是 研究 一 组 随机 变量 (Yi Y». Y0 A HAX Xo e XO BZ 8] K RN BE 
计 分 析 方法 。 

线性 回归 是 利用 称 为 线性 回归 方程 的 最 小 平方 函数 对 一 个 或 多 个 自 变量 和 因 变 量 之 间 
关系 进行 建 模 的 一 种 回归 分 析 。 

逻辑 回归 本 质 上 是 线性 回归 ,只 是 在 特征 到 结果 的 映射 中 加 入 了 一 层 函数 映射 , 即 先 把 
特征 线性 求 和 ,然后 使 用 函数 g(x) 作 为 最 终 假设 函数 来 预测 , 它 又 分 为 二 分 类 逻辑 回归 和 
多 分 类 逻辑 回归 。 























思 5 题 


1. 什么 是 回归 、 线 性 回归 和 逻辑 回归 ? 
2. 简 述 逻辑 回归 的 特点 。 
3. 基于 阿里 云 数 加 平台 进行 二 分 类 和 多 分 类 逻辑 回 
































归 操 作 。 
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5.1 KNN 算法 简介 


5.1.1 KNN 算法 原理 


K 最 近邻 (K-Nearest Neighbor,KNN) 分 类 算法 是 一 个 理论 上 比较 成 熟 的 方法 ,也 是 
最 简单 的 机 器 学 习 算 法 之 一 。 该 算法 最 初 由 Cover 和 Hart 于 1968 年 提出 , 它 根据 距离 函 
数 计算 待 分 类 样本 X 和 每 个 训练 样本 间 的 距离 (作为 相似 度 ) ,选择 与 待 分 类 样本 距离 最 小 
的 K 个 样本 作为 X 的 K 个 最 近邻 ,最 后 以 X 的 K 个 最 近邻 中 的 大 多 数 样 本 所 属 的 类 别 作 
Hy X 的 类 别 。 

KNN 算法 中 ,所 选择 的 邻居 都 是 已 经 正确 分 类 的 对 象 。 该 方法 在 定 类 决策 上 只 依据 
最 邻近 的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 所 属 的 类 别 。KNN 方法 虽然 从 原理 上 
也 依赖 于 极限 定理 ,但 在 类 别 决 策 时 ,只 与 极 少量 的 相 邻 样本 有 关 。 由 于 KNN 方法 主要 靠 
周围 有 限 的 邻近 的 样本 ,而 不 是 靠 判别 类 域 的 方法 确定 所 属 类 别 的 ,因此 对 于 类 域 的 交叉 或 
重合 较 多 的 待 分 样本 集 来 说 ,KNN 方法 较 其 他 方法 更 为 适合 。 

KNN 算法 大 致 包括 如 下 3 个 步骤 。 

CD 算 距离 : 给 定 测试 对 象 ,计算 它 与 训练 集中 的 每 个 对 象 的 距离 。 

(2) 找 邻 居 : 圈定 距离 最 近 的 & 个 训练 对 象 ,作为 测试 对 象 的 近邻 。 

(3) 做 分 类 : 根据 这 A 个 近邻 归属 的 主要 类 别 ,来 对 测试 对 象 分 类 。 

寻 此 最 为 关键 的 就 是 距离 的 计算 。 一 般 而 言 ,定义 一 个 距离 函数 d Ce y) ,需要 满足 下 
面 几 个 准则 。 

(D d(x,7x)=0 

(2) d(x ,y) 宇 0 

(3) d(x,y)=d(y,7) 

(D d(x,k)+d(k,y)d(r,y) 

距离 计算 有 很 多 方法 ,大 致 分 为 离散 型 特征 值 计算 方法 和 连续 型 特征 值 计 算法 方法 两 
大 类 。 

1. 连续 型 数据 的 相似 度 度量 方法 

1) 闵可夫 斯 基 距 离 

闵可夫 斯 基 距 离 (Minkowski distance) 是 衡量 数值 点 之 间距 离 的 一 种 常见 的 方法 ,假设 
数值 点 已 和 Q RRN P— Ga xe een Qo On ys ,yn), 则 闵可夫 斯 基 距 离 定 义 为 














(> | xi — yi e) 


该 距离 最 常用 的 p 是 2 和 1, 前 者 是 欧 几 里 得 距离 (Euclidean distance). Hf 


LS) Las — yi | ,后 者 是 曼哈顿 距离 (Manhattan distance) , 即 人 Sey i) SA p RIE FE 
i=l i=l 


a Vp 
穷 大 时 ,闵可夫 斯 基 距 离 转 化 为 切 比 雪夫 距离 (Chebyshev distance) B M | zxi— yi I") = 
i=l 
max | zi — yi |. 
2) 余弦 相似 度 
为 了 解释 余弦 相似 度 , 先 介绍 一 下 向 量 内 积 的 概念 。 向 量 内 积 定义 如 下 。 
Inner(z,y) =< x,y >= Dary: 


向 量 内 积 的 结果 是 没有 界限 的 ,一 种 解决 方法 是 除 以 长 度 之 后 再 求 内 积 ,这 就 是 应 用 广 
泛 的 余弦 相似 度 (cosine similarity) 。 


MIT xy 


(dia NES lx dd yl 

余弦 相似 度 与 向 量 的 幅 值 无 关 , 只 与 向 量 的 方向 相关 。 需 要 说 明 的 是 ,余弦 相似 度 受 到 
向 量 的 平移 影响 ,上 式 如 果 将 x 平移 到 xz 十 1, 余 弦 值 就 会 改变 。 怎 样 才能 实现 这 种 平移 不 
变性 ? 这 就 是 下 面 提 到 的 皮尔 逊 相关 系数 (pearson correlation) ,或 简称 为 相关 系数 。 

3) 皮尔 逊 相似 系数 








CosSimCr . y) 


> Gc—Dc-» 
fDi — 2)? AJ 93,0 — 53 
Mp aM es CosSim(.x — r.y — y) 
la-zll lly-yll 

皮尔 逊 相似 系数 具有 平移 不 变性 和 尺度 不 变性 , 它 计 算出 了 两 个 向 量 的 相关 性 , 工 .y 表 
示 zy 的 平均 值 。 

2. 离散 型 数据 的 相似 性 度量 方法 

D 汉 明 距离 

两 个 等 长 字符 串 sl 和 s2 之 间 的 汉 明 距离 (hamming distance) 定 义 为 将 其 中 一 个 变 为 另外 
一 个 所 需要 做 的 最 小 替换 次 数 。 例 如 ,1011101 与 1001001 之 间 的 汉 明 距离 是 2,2 143 896 与 
2 233 796 之 间 的 汉 明 距离 是 3. toned 与 roses 之 间 的 汉 明 距离 是 3。 

在 一 些 情况 下 , 某 些 特定 的 值 相 等 并 不 能 代表 什么 。 举 个 例子 ,用 1 表示 用 户 看 过 该 
电影 ,用 0 表示 用 户 没 有 看 过 ,那么 用 户 看 电影 的 信息 就 可 用 0、1 表示 成 一 个 序列 。 考 虑 到 
电影 基数 非常 庞大 .用户 看 过 的 电影 只 占 其 中 非常 小 的 一 部 分 ,如 果 两 个 用 户 都 没有 看 过 某 
一 部 电影 (两 个 都 是 0) ,并 不 能 说 明 两 者 相似 。 反 而 言 之 ,如 果 两 个 用 户 都 看 过 某 一 部 电影 
(序列 中 都 是 1), 则 说 明 用 户 有 很 大 的 相似 度 。 在 这 个 例子 中 ,序列 中 等 于 1 所 占 的 权重 应 
该 远 远 大 于 0 的 权重 ,这 就 引出 下 面 要 说 的 杰 卡 德 相 似 系数 (Jaccard similarity) 。 

2) 杰 卡 德 相似 系数 

在 上 面 的 例子 中 ,用 M11 表示 两 个 用 户 都 看 过 的 电影 数目 ,M10 表示 用 户 A 看 过 而 用 
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户 B 没 有 看 过 的 电影 数目 ,M01 表示 用 户 A 没 看 过 而 用 户 B 看 过 的 电影 数目 ,M00 表示 两 
个 用 户 都 没有 看 过 的 电影 数目 。Jaccard 相似 性 系数 可 以 表示 如 下 。 


RS M11 
M01 + MIO +M11 


5.1.2 KNN 算法 应 用 举例 


实现 KNN 算法 的 步骤 如 下 。 

CD 初始 化 距离 为 最 大 值 。 

(2) 计算 测试 样本 和 每 个 训练 样本 的 距离 dist. 

(3) 得 到 目前 A 个 最 近邻 样本 中 的 最 大 距离 maxdist。 

(4) 如 果 dist 小 于 maxdist, 则 将 该 训练 样本 作为 & 最 近邻 样本 。 

(5) 重复 步骤 (2) (3) 和 (4), 直 到 测试 样本 和 所 有 训练 样本 的 距离 都 计算 完毕 。 

(6) 统计 个 最 近邻 样本 中 每 个 类 别 出 现 的 次 数 。 

(7) 选择 出 现 频 率 最 大 的 类 别 作为 测试 样本 的 类 别 。 

【 例 5.1】 表 5-1 为 进行 KNN 分 类 算法 的 简单 数据 表 , 数 据 序列 号 为 Ti 一 Ti, 每 条 
数据 有 1、2 两 个 特征 ,以 及 它 所 属 的 类 别 。 对 于 测试 样本 T= (18.8) X HI KNN 算法 求 其 
所 属 类 别 。 
































表 5-1 训练 集 
m 号 特征 1 特征 2 类 5l 
T 2 4 L1 
T: 4 3 L2 
T 10 6 L3 
Ti 12 9 L2 
T; 3 11 13 
T, 20 7 L2 
T; 22 5 L2 
Ts 21 10 Li 
Ty 1 2 L3 
Tw 24 1 L1 











解 : 本 例 采 用 欧 几 里 得 距离 度量 方法 , 且 设 k=4。 
dCT.Ti) (18 — 2)? --(8—4)* = 16.49; d(T.T;) (18 — 4)? + (8— 3)? = 14. 87 
d(T.T3) (8 — 10)? + (8— 6)? = 8.25; d(T.T,) = /G8—12)? + (8— 9)? = 6.08 
aC. Ty) (18— 3)? + (8— 11)? = 15.3; d(T. T.) (18 — 20)? + (8— D? = 2.24 


















































d(T,T;) (18 — 22)? + (8— 5* = 5; d(T. T3) (18 — 21)? + (8—10)* = 3.61 




















dC. Ty) (8 — 11)? + (8— 2)? = 9.22; dCT. Ty) (18 — 24)? + (8 — D* = 9.22 
所 以 距离 了 最 近 的 4 NERI CUTS Ts Ts Ta) ,它们 对 应 的 标签 为 {Lz «Li «La L2) ,所 
以 工 的 标签 为 二: 。 
【 例 5.2】 对 于 训练 集 工 如 表 5-2 所 示 , 用 KNN 算法 对 实例 zx 一 (1,2) 进 行 分 类 。 其 























中 采用 欧 几 里 得 距离 衡量 实例 间 的 相似 度 ,& 一 5, 采 样 多 数 表 决 作为 分 类 决策 规则 。 
表 5-2 训练 样本 集 





























































































































实 fl 横 od 标 纵 7 标 实例 所 属 类 
1 0. 189 710 406 0. 495 005 825 cl 
2 0. 147 608 222 0.054 974 147 cl 
3 0. 000 522 375 0. 865 438 591 cl 
4 0. 527 680 069 0.479 523 385 cl 
5 0. 801 347 606 0. 227 842 936 cl 
6 0. 738 640 292 0. 585 987 036 cl 
7 0. 246 734 526 0. 666 416 217 cl 
8 0. 083 482 814 0. 625 959 785 cl 
9 0. 660 944 558 0.729 751 855 cl 

10 0.769 029 085 0. 581 446 488 cl 
11 1. 725 421 437 0. 968 593 022 c2 
12 1. 689 711 349 0. 418 810 168 c2 
13 1. 104 582 683 1. 259 766 77 c2 
14 0. 063 982 032 1. 229 426 838 c2 
15 0. 979 139 978 0. 385 020 792 c2 
16 0. 085 304 822 1. 270 395 834 c2 
17 0. 563 733 712 1. 077 193 356 c2 
18 1. 390 326 079 0. 998 232 027 c2 
19 1.071 602 112 0. 890 366 331 c2 
20 0. 247 864 555 0. 980 714 587 c2 
21 1. 694 938 712 1. 920 935 475 c3 
22 2. 843 799 364 0. 246 213 621 c3 
23 2. 213 524 961 0. 190 213 502 c3 
24 2. 356 676 968 1. 540 132 256 c3 
25 2.817 425 118 0.903 918 194 c3 
26 1. 401 204 561 1. 944 595 219 c3 
27 0. 075 684 544 2.526 619 837 c3 
28 1. 988 424 186 0. 992 486 986 c3 
29 2.695 458 414 0. 354 465 595 c3 
30 1. 394 519 825 2. 291 871 235 c3 
31 3. 272 816 156 0. 400 886 161 c4 
32 0. 835 786 696 3. 620 614 236 c4 
33 2. 701 564 709 1. 873 872 8 c4 
34 3. 648 529 897 0. 416 046 299 c4 
35 3. 579 766 702 0. 285 811 251 c4 
36 3. 588 765 404 0. 786 632 765 c4 
37 2. 021 712 57 3. 045 703 547 c4 
38 0. 323 449 693 3. 108 962 146 c4 
39 0. 436 616 848 3. 303 235 431 c4 
40 2. 413 871 935 2. 104 409 863 c4 
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解 : 
待 分 类 实例 与 工 中 实例 的 距离 如 表 5-3 所 示 ,40 个 训练 样本 距离 按照 行 优先 的 顺序 
排列 。 


表 5-3 距离 结果 表 


























































































































X Bl 实例 zx 与 各 实例 的 距离 实例 所 属 类 
| 1.709 262 032 cl 
2 2.123 604 792 cl 
3 1. 512 013 595 cl 
4 1. 592 148 cl 
5 1. 783 256 413 cl 
6 1. 437 964 381 cl 
7 1. 531 618 288 cl 
8 1. 651 662 879 cl 
9 1.314 7201 cl 

10 1. 437 234 021 cl 
11 1. 260 966 54 c2 
12 1. 725 068 993 c2 
13 0. 747 584 625 c2 
14 1. 212 399 536 c2 
15 1. 615 113 922 c2 
16 1. 170 038 251 c2 
17 1.020 735 214 c2 
18 1. 075 124 886 c2 
19 1. 111 941 43 c2 
20 1. 266 747 994 c2 
21 0. 699 421 913 c3 
22 2. 544 673 409 c3 
23 2. 178 983 708 c3 
24 1. 432 498 076 c3 
25 2. 122 364 103 c3 
26 0. 405 012 086 c3 
27 1. 063 808 025 c3 
28 1. 411 405 273 c3 
29 2. 362 702 416 c3 
30 0. 490 749 132 c3 
31 2.779 003 121 c4 
32 1. 628 912 678 c4 
33 1. 706 232 848 c4 
34 3. 086 036 283 c4 
35 3. 097 360 054 c4 
36 2. 859 014 929 c4 
37 1. 461 982 381 c4 
38 1. 299 044 788 c4 
39 1. 419 796 875 c4 
40 1. 417 721 859 c4 








由 表 5-3 可 知 ,cl 类 有 0 个 ,c2 类 有 2 个 ,c3 类 有 3 个 ,c4 类 有 0 个 , 则 可 判定 zx 属于 
c3 类 。 


5.2. KNN 算法 的 特点 及 改进 


5.2.1 KNN 算法 的 特点 


KNN 算法 优点 如 下 。 

(1) 算法 思路 较为 简单 ,易于 实现 。 

(2) 当 有 新 样本 要 加 入 训练 集中 时 ,无 须 重新 训练 ( 即 重新 训练 的 代价 低 ) 。 

(3) 计算 时 间 和 空间 线性 于 训练 集 的 规模 ,对 某 些 问题 而 言 是 可 行 的 。 

KNN 算法 缺点 如 下 。 

CD 分 类 速度 慢 。KNN 算法 的 时 间 复 杂 度 和 空间 复杂 度 会 随 着 训练 集 规模 和 特征 维 
数 的 增 大 而 快速 增加 ,因此 每 次 新 的 待 分 类 样本 都 必须 与 所 有 训练 集 一 同 计算 比较 相似 度 ， 
以 便 取 出 靠 前 的 个 已 分 类 样本 ,KNN 算法 的 时 间 复 杂 度 为 OO x* n), 这 里 m 是 特征 个 
数 ,n 是 训练 集 样本 的 个 数 。 

(2) 各 属性 的 权重 相同 ,影响 准确 率 。 当 样本 不 均衡 时 ,如 一 个 类 的 样本 容量 很 大 ,而 
其 他 类 的 样本 容量 很 小 时 ,有 可 能 导致 当 输 入 一 个 新 样本 时 ,该 样本 的 K 个 邻居 中 大 容量 
类 的 样本 占 多 数 。 该 算法 只 计算 “最 近 的 ”邻居 样本 ,如 果 某 一 类 的 样本 数量 很 大 ,那么 有 可 
能 目标 样本 并 不 接近 这 类 样本 , 却 会 将 目标 样本 分 到 该 类 下 ,从 而 影响 分 类 准确 率 。 

(3) 样本 库容 量 依 赖 性 较 强 。 

CD K 值 不 好 确定 。K 值 选择 过 小 ,导致 近邻 数目 过 少 , 会 降低 分 类 精度 ,同时 也 会 放 
大 噪声 数据 的 干扰 ; K 值 选择 过 大 ,如 果 待 分 类 样本 属于 训练 集中 包含 数据 较 少 的 类 ,那么 
在 选择 K 个 近邻 的 时 候 , 实 际 上 并 不 相似 的 数据 也 被 包含 进来 ,从 而 造成 噪声 增加 而 导致 
分 类 效果 的 降低 。 


5.2.2 KNN 算法 的 改进 策略 


l. 从 降低 计算 复杂 度 的 角度 

当 样本 容量 较 大 以 及 特征 属性 较 多 的 时 候 ,KNN 算法 分 类 的 效率 就 将 大 大 地 降低 。 
可 以 采用 的 改进 方法 如 下 。 

(1) 进行 特征 选择 。 使 用 KNN 算法 之 前 对 特征 属性 进行 约 简 , 删 除 那 些 对 分 类 结果 
影响 较 小 (或 不 重要 ) 的 特征 , 则 可 以 加 快 KNN 算法 的 分 类 速度 。 

(2) 缩小 训练 样本 集 的 大 小 。 在 原 有 训练 集中 删除 与 分 类 相关 性 不 大 的 样本 。 

D 通过 上 聚 类 ,将 聚 类 所 产生 的 中 心 点 作为 新 的 训练 样本 。 

2. 从 优化 相似 性 度量 方法 的 角度 

很 多 KNN 算法 基于 欧 几 里 得 距离 来 计算 样本 的 相似 度 ,但 这 种 方法 对 噪声 特征 非常 
敏感 。 为 了 改变 传统 KNN 算法 中 特征 作用 相同 的 缺点 ,可 以 再 度量 相似 度 距离 公式 中 给 
特征 赋予 不 同 权 重 , 特 征 的 权重 一 般 根据 各 个 特征 在 分 类 中 的 作用 而 设 定 ,计算 权重 的 方法 
有 很 多 ,例如 信息 增益 的 方法 。 另 外 ,还 可 以 针对 不 同 的 特征 类 型 ,采用 不 同 的 相似 度 度量 
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公式 ,更 好 地 反映 样本 间 的 相似 性 。 

3. 从 优化 判决 策略 的 角度 

传统 的 KNN 算法 的 决策 规则 存在 的 缺点 是 , 当 样本 分 布 不 均匀 (训练 样本 各 类 别 之 间 
数目 不 均衡 ,或 者 即使 基本 数目 接近 ,但 其 所 占 区 域 大 小 不 同 ) 时 ,只 按照 前 & 个 近邻 顺序 而 
不 考虑 它们 的 距离 会 造成 分 类 不 准确 ,采取 的 方法 很 多 ,例如 可 以 采用 均匀 化 样本 分 布 密度 
的 方法 加 以 改进 。 

4. 从 选取 恰当 KK 值 的 角度 

由 于 KNN 算法 中 的 大 部 分 计算 都 发 生 在 分 类 阶段 ,而 且 分 类 效果 很 大 程度 上 依赖 于 
K 值 的 选取 ,到 目前 为 止 ,没有 成 熟 的 方法 和 理论 指导 & 值 的 选择 ,大 多 数 情况 下 需要 通过 
反复 试验 来 调整 K 值 的 选择 。 


5.3 KNN 源 代 码 结 果 分 析 


KNN 算法 的 Java 源 程序 如 下 所 示 , 包 含 3 个 文件 , 即 KNN. java, KNNNode. java 和 
TestKNN. java, 相 关 程 序 和 实验 数据 可 从 github 中 下 载 ,网 址 为 https://github. com/ 
guanyaol /knn. git. 

1. KNN. java 





package knn; 
import java. util. ArrayList; 
import java. util. Comparator; 
import java. util. HashMap; 
import java. util. List; 
import java. util. Map; 
import java. util.PriorityQueue; 
/ * KNN 算法 主体 类 
* (author liuwei 
«/ 
public class KNN { 
// 设 置 优 先 级 队列 的 比较 函数 ,距离 越 大 ,优先 级 越 高 
private Comparator < KNNNode > comparator = new Comparator < KNNNode >() { 
@Override 
public int compare(KNNNode 01, KNNNode 02) { 
if(ol.getDistance() >= o2.getDistance())( 
return 1; 
}else{ 
return 0; 
} 
} 
} 
/ C FRE K A E EC BL 
* @param k 随机 数 的 个 数 
* @param maxRange 随机 数 最 大 的 范围 


* @return 生成 的 随机 数 数组 
x/ 
public List < Integer > getRandNun( int k, int maxRange) { 
List < Integer > rand = new ArrayList < Integer >(k) ; 
for (int i = 0; i<k; i++) { 
int temp = (int) (Math. random() * maxRange) ; 
if(! rand. contains(temp) ) { 
rand. add(temp) ; 
Jeise( 
i--; 
} 
} 
return rand; 
} 
/* 计算 测试 元 组 与 训练 元 组 之 间 的 距离 
* (param testDis 测试 元 组 
* @param tranDis 训练 元 组 
* @return 距离 值 
x/ 
public double calDistance(List «Double» testDis, List «Double» tranDis)( 
double distance = 0.00; // 测 试 元 组 与 训练 元 组 之 间 的 距离 


for (int i = 0; i«testDis.size(); i++) { 


distance += (testDis.get(i) - tranDis.get(i)) * (testDis. get(i) - tranDis. 


get(i)); 
} 
return distance; 
} 
/* 执行 KNN 算法 ,获取 测试 元 组 的 类 别 
* @param datas 训练 数据 集 
* @param testData 测试 元 组 
* @param k 设 定 的 K 值 
* @return 测试 元 组 的 类 别 
*/ 


publ ic String knn(List < List < Double >> datas, List < Double > testData, int k)( 


PriorityQueue < KNNNode > pq = new PriorityQueue < KNNNode >(k, comparator) ; 
// 使 用 指定 的 初始 容量 k 创建 一 个 PriorityQueue, 
// 并 根据 指定 的 比较 器 comparator 对 元 素 进行 排序 
List < Integer > randNum = getRandNum(k, datas. size()); 
for (int i = 0; i<k; i++) { 
int index = randNum. get(i); 
List <Double> currData = datas. get( index) ; 
String c = currData. get(currData. size() - 1).toString(); 


KNNNode node = new KNNNode( index, calDistance(testData, currData), c); 


pq. add(node) ; 
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for (inti = 0; i<datas.size(); i++) { 
List«Double» t = datas.get(i); 
double distance - calDistance(testData, t); 
KNNNode topNode = pq.peek(); 
if(topNode. getDistance() > distance) { 
pq. remove(); 
pq. add(new KNNNode(i, distance, t.get(t.size() - 1).toString())); 


} 
return getMostClass(pq) ; 


} 
/* 获取 所 得 到 的 K 个 最 近邻 元 组 的 种 类 
* @param pq 存储 K 个 最 近 近 邻 元 组 的 优先 级 队列 
* @return 多 数 类 的 名 称 
«/ 
private String getMostClass(PriorityQueue < KNNNode > pq) { 
Map < String, Integer > classCount = new HashMap < String, Integer >(); 
for (int i = 0; i<pq.size(); i++) { 
KNNNode node = pq. remove(); // 获 取 并 移 除 此 队列 的 头 
String category = node.getCategory(); 
if(classCount. containsKey(category) ){ 
classCount. put(category，classCount.get(category) + 1); 
Jelse( 
classCount. put(category, 1); 


j 
int maxIndex = -1; 
int maxCount - 0; 
Object[] classes = classCount.keySet(). toArray(); 
for (int i = 0; i< classes. length; i++) { 
if(classCount. get(classes[ i]) > maxCount) ( 
maxIndex = i; 
maxCount = classCount.get(classes[i]); 


) 
return classes[maxIndex]. toString(); 


) 
2. KNNNode, java 


package knn; 
// KNN 结 点 类 ,用 来 存储 最 近邻 的 K 个 元 组 的 相关 信息 
Public class KNNNode { 

Private int index; // 元 组 标号 


private double distance; // 与 测试 元 组 的 距离 
private String category; // 所 属 类 别 


public KNNNode(int index, double distance, String category) { 
this. index = index; 
this.distance = distance; 
this.category = category; 

} 

public int getIndex() { 
return index; 

} 

public void setIndex(int index) { 
this. index = index; 

} 

public double getDistance() { 
return distance; 

} 

public void setDistance(double distance) { 
this.distance = distance; 

} 

public String getCategory() { 
return category; 

} 

public void setCategory(String category) { 
this.category = category; 


} 
3. TestKNN. java 


package knn; 


import java. io. BufferedReader; 

import java. io.File; 

import java. io. FileNotFoundException; 
import java. io. FileReader; 

import java. io. IOException; 

import java. util. ArrayList; 

import java. util. List; 

77 KNN 算法 测试 类 

public class TestKNN { 


/* 程 序 执行 入 口 
* @param args 
*/ 
public static void main(String[ ] args) { 
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TestKNN testKnn = new TestKNN(); 
String dataFile = "C:\\Users\\wang4\\Desktop\\data. txt"; 
String testFile = "C:\\Users\\wang4\\Desktop\\test. txt"; 
try { 
List < List <Double>> datas = new ArrayList «List < Double >>(); 
List <List <Double>> testDatas = new ArrayList < List < Double >>(); 
testKnn. read( datas, dataFile) ; 
testKnn. read(testDatas, testFile) ; 
KNN knn = new KNN(); 
for (inti = 0; i< testDatas. size(); i++) { 
List <Double> test = testDatas. get(i); 
System, out. print(" 测 试 元 组 : "); 
for (int j = 0; j< test. size(); j++) { 
System. out. print(test.get(j) + ""); 


System. out. print(" 类 别 为 : "); 
System. out. println(Math. round(Float. parseFloat( (kmn. knn(datas, test, 3))))); 
} 
} catch (IOException e) { 
e. printStackTrace(); 
j 


} 
/ * 从 数据 文件 中 读 取 数据 
* @param datas 存储 数据 的 集合 对 象 
* @param path 数据 文件 的 路 径 
* @throws IOException 
x/ 
public void read(List < List < Double >> datas, String path) throws IOException{ 
BufferedReader br = null; 
List <Double> list = null; 
try { 
br = new BufferedReader(new FileReader(new File(path))); 
String data = br.readLine();// 读 取 一 个 文本 行 
while(data != null)( 
String t[] = data. split(""); 
list = new ArrayList < Double >(); 
for (int i = 0; i<t.length; i++) { 
list. add( Double. parseDouble(t[i])); 
$ 
datas. add( list); 
data = br. readLine(); 
f 
} catch (FileNotFoundException e) { 
e. printStackTrace() ; 
} 


} 


程序 运行 界面 如 图 5-1 所 示 。 
从 上 面 的 测试 情况 可 以 直观 地 看 出 ,KNN 算法 的 预测 结果 的 正确 率 还 是 很 高 的 。 





测试 元 组 : 1.0 1.1 1.2 2.1 0.3 2.3 1 1 

测试 元 组 : 1.7 1.2 1.4 2.0 0.2 2.5 1.2 0.8 类 别 为 : 1 

测试 元 组 : 1.2 1.8 1.6 2.5 0.1 2.2 1.8 0.2 类 别 为 : 1 

测试 元 组 : 1.9 2.1 6.2 1.1 0.9 3.3 2.4 5.5 类 别 为 : 0 

测试 元 组 : 1.0 0.8 1.6 2.1 0.2 2.3 1.6 0.5 类 别 为 ; 1 

测试 元 组 : 1.6 2.1 5.2 1.1 0.8 3.6 2.4 4.5 类 别 为 : 0 
图 5-1 KNN 程序 运行 结果 


5.4 基于 阿里 云 数 加 平台 的 KNN 算法 应 用 实例 


KNN 算法 属于 分 类 算法 ,其 总 体 目 的 是 通过 训练 有 标签 数据 ,给 无 标签 数据 赋 标 签 。 
它 通过 计算 预测 数据 与 训练 数据 的 距离 , 选 出 距离 最 近 的 K 条 记录 ,在 这 K 条 记录 中 , 某 
一 个 或 某 几 个 变 签 个 数 最 多 的 为 那个 数据 的 预测 标签 ,可 以 自行 建立 一 个 带 标签 的 训练 表 
和 一 个 不 带 标签 的 预测 表 来 做 KNN 分 类 算法 。 数 据 图 如 图 5-2 和 图 5-3 所 示 。 


Da fi^ fa Ba Nadia 

1 2 2 2 good 

1 |3 |3 |3 |oood 

1 |4 |5 |3 fbad 

0 3 6 |2 | bad 

0 4 4 2 bad 

o 2 4 |2 god Da na Qa fa | 

1 3 2 3 bad 0 3 4 3 

1 |4 |3 |2 | good 4 7|2— 18 — ]3 

0 |2 |5 |2 |bad o |3 |5 |2 

1 |4 |e |3 [bad cda E 
图 5-2 ”训练 集 数据 表 图 5-3 预测 集 数据 表 


操作 流程 图 如 图 5-4 所 示 , 图 上 方 左 边 为 训练 表 , 右 边 为 预测 表 。 
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图 5-4 操作 流程 图 


K 近邻 的 字段 设置 与 参数 设置 如 图 5-5 所 示 , 其 中 ,字段 设置 为 : 选择 训练 表 特 征 列 必 
选 ,选择 训练 表 中 所 需 的 特征 列 即 可 ,这 里 选择 的 是 "f0”“f1”“f2”“f3”; 选择 训练 表 的 标签 
列 必 选 ,选择 训练 表 中 的 标签 列 即 可 ,这 里 选择 的 是 label Ji; 选择 预测 表 特 征 列 可 选 , 当 预 
测 表 的 特征 列 与 训练 表 的 特征 列 重 名 时 ,这 里 便 可 不 选 。 产 出 表 附加 ID 列 可 选 , 它 是 用 来 
标识 该 列 的 身份 ,进而 知道 某 列 对 应 的 预测 值 , 默 认 预 测 表 特征 列 都 作为 附加 ID 列 ,这 里 选 
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择 的 是 默认 值 。 参 数 设置 的 近邻 个 数 , 可 自行 设置 ,这 里 选择 的 是 5。 





















































图 5-5 K 近邻 的 字段 设置 与 参数 设置 图 


实验 结果 如 图 5-6 所 示 , 得 到 的 是 对 预测 表 的 标签 预测 。 


lOa fi^ 人 < 人 < prediction result predicion scorea prediction detail a 


0 3 4 3 bad 06 {"bad™ 0.6, "good": 0.4} 
1 D 6 3 bad 08 {"bad™ 0.8, "good": 0.2} 
| 0 3 5 |2 bad 08 {"bad™ 0.8, "good": 0.2} 
1 4 2 2 good 06 {"bad™ 0.4, "good": 0.6} 





图 5-6 天 近邻 的 实验 结果 


5.5 小 结 


KNN 算法 根据 距离 函数 计算 待 分 类 样本 X 和 每 个 训练 样本 的 距离 (作为 相似 度 
择 与 待 分 类 样本 距离 最 小 的 天 个 样本 作为 X 的 K 个 最 近邻 ,最 后 以 X 的 天 个 最 近邻 
大 多 数 样本 所 属 的 类 别 作 为 X 的 类 别 。 

如 何 度量 样本 之 间 的 距离 (或 相似 度 ) 是 KNN 算法 的 关键 步骤 之 一 。 常 见 的 相似 
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量 方法 包括 闵可夫 斯 基 距 离 ( 当 参数 p — a2 时 为 欧 几 里 得 距离 ,参数 p — 1 时 为 曼哈顿 距 


离 )、 余 弦 相 似 度 、 皮 尔 进 相似 系数 、 汉 明 距 离 和 杰 卡 德 相似 系数 等 。 
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. 简 述 KNN 算法 的 原理 。 

. 简 述 KNN 算法 的 优 缺 点 。 

. 简 述 KNN 算法 的 改进 策略 。 

. 基于 阿里 云 数 加 平台 对 KNN 算法 进行 操作 。 
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第 6 章 朴素 贝 叶 斯 分 类 算法 





6.1 基本 概念 


6.1.1 主观 概率 


贝 叶 斯 方法 是 一 种 研究 不 确定 性 的 推理 方法 ,不 确定 性 常用 贝 叶 斯 概率 表示 , 它 是 
一 种 主观 概率 。 通 常 的 经 典 概率 代表 事件 的 物理 特性 ,是 不 随 人 意识 变化 的 客观 存在 ， 
而 贝 叶 斯 概率 则 是 人 的 认识 ,是 个 人 主观 的 估计 , 随 个 人 的 主观 认识 的 变化 而 变化 。 投 
掷 硬 币 可 能 出 现 的 正 反面 两 种 情形 ,经 典 概率 代表 硬币 正面 朝 上 的 概率 ,这 是 一 个 客观 
存在 ; 而 贝 叶 斯 概率 则 指 个 人 相信 硬币 会 正面 朝 上 的 程度 。 同 样 的 例子 还 有 ,一 个 企业 
家 认为 “一 项 新 产品 在 未 来 市 场 上 销售 ”的 概率 是 0. 8, 这 里 的 0. 8 是 根据 他 多 年 的 经 验 
和 当时 的 一 些 市 场 信息 综合 而 成 的 个 人 观点 。 一 个 投资 者 认为 “购买 某 种 股票 能 获得 高 
收益 ”的 概率 是 0.6, 这 里 的 0.6 是 投资 者 根据 自己 多 年 股票 生意 经 验 和 当时 股票 行情 综 
合 而 成 的 个 人 信念 。 

贝 叶 斯 概率 是 主观 的 ,对 它 的 估计 取决 于 先 验 知识 的 正确 和 后 验 知识 的 丰富 和 准确 , 因 
此 贝 叶 斯 概率 常常 可 能 随 个 人 掌握 信息 的 不 同 而 发 生变 化 。 对 即将 进行 的 羽毛 球 单打 比赛 
结果 进行 预测 ,不 同人 对 胜 负 的 主观 预测 都 不 同 ,如 果 对 两 人 的 情况 和 各 种 现场 的 分 析 一 无 
所 知 ,就 会 认为 两 者 的 胜 负 比 例 为 1 比 1; 如 果 知 道 其 中 一 人 是 奥运 会 羽毛 球 单打 冠军 ,而 
另 一 人 只 是 某 省 队 新 队员 , 则 可 能 给 出 的 概率 是 奥运 会 冠军 和 省 队 队 员 的 胜 负 比例 为 3 比 
1; 如 果 进 一 步 知道 奥运 冠军 刚好 在 前 一 场 比赛 中 受过 伤 , 则 对 他 们 胜 负 比例 的 主观 预测 可 
能 会 下 调 为 2 比 1。 所 有 的 预测 推断 都 是 主观 的 ,基于 后 验 知识 的 一 种 判断 ,取决 于 对 各 种 
信息 的 掌握 。 

经 典 概 率 方法 强调 客观 存在 , 它 认 为 不 确定 性 是 客观 存在 的 。 在 同样 的 羽毛 球 单 打 比 
赛 预测 中 ,从 经 典 概率 的 角度 看 ,如 果 认为 胜 负 比例 为 1 比 1, 则 意味 着 在 相同 条 件 下 ,如 果 
两 人 进行 100 场 比赛 ,其 中 一 人 可 能 会 取得 50 场 的 胜利 ,同时 丢掉 另外 50 场 。 主 观 概率 不 
像 经 典 概率 那样 强调 多 次 的 重复 ,因此 在 许多 不 可 能 出 现 重复 事件 的 场合 能 得 到 很 好 的 应 
用 。 上 面 提 到 的 企业 家 对 未 来 产品 的 预测 ,投资 者 对 股票 是 否 能 取得 高 收益 的 预测 以 及 羽 
毛 球 比赛 胜 负 的 预测 中 ,都 不 可 能 进行 重复 的 实验 ,因此 ,利用 主观 概率 ,按照 个 人 对 事件 的 
相信 程度 而 对 事件 做 出 推断 是 一 种 很 合理 而 易于 解释 的 方法 。 





6.1.2 贝 叶 斯 定理 


1. 基础 知识 
CD 已 知事 件 A 发 生 的 条 件 下 ,事件 B 发 生 的 概率 , 称 为 事件 B 在 事件 A 发 生 下 的 条 
EEE dy PCB A) ,其 中 P(A) 称 为 先 验 概率 ,P(BIA) 称 为 后 验 概 率 , 计 算 条 件 概 率 的 
公式 如 下 。 
_PANB 


PBID = Sra) (6-1) 
条 件 概率 公式 通过 变形 得 到 如 下 乘法 公式 。 
P(A N B) = P(B | APA) (6-2) 


(2) WE A.B 为 两 个 随机 事件 ,如 果 有 PCAB)= PCA) PCB) i sr. YEE A MB 相互 
Jor. UL PCA| D — PCAD .PCAB) P(A) P(B) RE 
设 A Azs An 为 n AS BBL SE HE. D ROSE JE PER m msn A RF Aa, sAr seme 
Ak, ,都 有 
PCAs, sAn, AD = PCAs, DP (Ar D POS) (6-3) 
成 立 , 则 称 事件 Al Arse A, 相互 独立 。 


(3) 设 Bi Ba B, 为 互 不 相 容 事件 ,PCB,) 0.11.2. n H Ua=o 为 基本 空 
间 , 对 任意 的 事件 AC WB,, 计 算 事件 A 发 生 的 概率 的 公式 为 


P(A) = >)P(B)P(CA | B) (6-4) 
i=1 


i By. B: ,…,B, 为 互 不 相 容 事件 ,P(B,) 0.11.2. m PCAY70. UU te 3EQE A RE 
的 条 件 下 ,事件 B; 发 生 的 概率 为 


PG, | A) P(BiA) P(B;) P(A | Bi) 


PCA) z 
>)PCBD)P(A | BO 
i=1 





(6-5) 





称 该 公式 为 贝 叶 斯 公式 。 
2. 贝 叶 斯 决策 准则 
Jii NAS (Ci Co Cn) EA m 个 不 同类 别 的 集合 ,特征 向 量 X 是 d 维 向量 , PX | 

Ci) 是 特征 向 量 关 在 类 别 C; 状态 下 的 条 件 概率 ,P(Ci) 为 类 别 C; 的 先 验 概 率 。 根 据 前 面 所 

述 的 贝 叶 斯 公式 ,后 验 概率 P(C;|X) 的 计算 公式 为 


P(C; | X) = POD 


PCED (6-6) 


其 中 P(X)= 5 PCKIC PC). 
j=1 
贝 叶 斯 决策 准则 为 : 如 果 对 于 任意 Ay. BAT POC; | X)> PCC; | XO AE WEAR A, X 
被 判定 为 类 别 Ci 。 
3. 极 大 后 验 假设 
根据 贝 叶 斯 公式 可 得 到 一 种 计算 后 验 概 率 的 方法 : 在 一 定 假设 的 条 件 下 ,根据 先 验 概 
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率 和 统计 样本 数据 得 到 的 概率 ,可 以 得 到 后 验 概率 。 

4 P(c) 是 假设 c 的 先 验 概率 , 它 表示 c 是 正确 假设 的 概率 ,P(X) 表 示 的 是 训练 样本 义 
的 先 验 概率 ,P(X|c) 表 示 在 假设 c 正确 的 条 件 下 样本 X 发 生 或 出 现 的 概率 ,根据 贝 叶 斯 公 
式 可 以 得 到 后 验 概率 的 计算 公式 为 


PG | X) = PALOPO 


P(X) 
WC 为 类 别 集合 也 就 是 待 选 假设 集合 ,在 给 定 未 知 类 别 标号 样本 X 时 ,通过 计算 找到 
可 能 性 最 大 的 假设 cEC, 具 有 最 大 可 能 性 的 假设 或 类 别 被 称 为 极 大 后 验 假设 (maximum a 


posteriori) , 记 作 Cmap: 


(6-7) 


P(X | OPCO 


P(X) Sus 





Cmap = arg maxP (c | X) = arg max 
cec cec 


HF P(X) 与 假设 c 无 关 , 上 式 可 变 为 ， 
Cmap = arg maxP (X | PC) (6-9) 
当 没 有 给 定 类 别 概率 的 情形 下 ,可 做 一 个 简单 假定 : 假设 C 中 每 个 假设 都 有 相等 的 先 验 概 
率 , 也 就 是 对 于 任意 的 ci,c; € CD A PG — PG ,再 做 进一步 简化 ,只 需 计 算 P(X| 
中) 找到 使 之 达到 最 大 的 假设 。P(X|1c) 被 称 为 极 大 似 然 假 设 (maximum likelihood), id 
Wi Cu: 
Ca = arg maxP (X Le» (6-10) 


6.1.3. 朴素 贝 叶 斯 分 类 模型 


在 贝 叶 斯 分 类 器 的 诸多 算法 中 ,朴素 贝 叶 斯 分 类 模型 是 最 早出 现 的 , 它 的 算法 逻辑 简 
单 ,构造 的 朴素 贝 叶 斯 分 类 模型 结构 也 比较 简单 ,运算 速度 比 同 类 算法 快 很 多 ,分 类 所 需 的 
时 间 也 比较 短 , 并 且 大 多 数 情况 下 分 类 精度 也 比较 高 ,因而 在 实际 中 得 到 了 广泛 的 应 用 。 该 
分 类 器 有 一 个 朴素 的 假定 : 以 属性 的 类 条 件 独立 性 假设 为 前 提 , 即 在 给 定 类 别 状态 条 件 下 ， 
属性 之 间 是 相互 独立 的 。 朴 素 贝 叶 斯 分 类 器 的 结构 示意 图 如 图 6-1 所 示 。 





属性 结 点 





Q 


图 6-1 朴素 贝 叶 斯 分 类 器 的 结构 示意 图 


BEREA m SKI (Ci ,Cs，…,C。) ,数据 集 有 个 属性 Ai,As,…,A,, 给 定 一 
AAR A EAS X= Ges ere tt en0 ,其 中 zx; 表示 第 i 个 属性 的 取 值 , 即 c; € A;, 则 可 用 
贝 叶 斯 公式 计算 样本 X — Gn exe n0 AFRI C Oo em) BOE, Us Vp osx. 


Pc, 3) =P BPMN pcc) PCC) , 即 要 得 到 P(Ce|X) 的 值 ,关键 要 计算 POX | 


COM PCC). $ COOR X 所 属 的 类 别 标签 ,由 贝 叶 斯 分 类 准则 ,如 果 对 于 任意 A ,都 有 


PC; | X) PCC; | X) RE WI E A A 28 30 IEEE A X 指派 给 类 别 Ci, 贝 叶 斯 分 类 器 的 计算 模 
型 如 下 。 

CCX) = arg maxP(C;) P(X | C) (6-11) 

由 朴素 贝 叶 斯 分 类 器 的 属性 独立 性 假设 ,假设 各 属性 zi(i 一 1,2,…',z) 间 相互 条 件 独 


立 , 则 


PEX | CD = [[ PG | Cd (6-12) 
k=1 
于 是 式 (6-11) 被 修改 为 
CCX) = arg maxP(C;) [| PG | CD (6-13) 
id k=1 


P(Ci) 为 先 验 概率 ,可 通过 PCC) =di/d 计算 得 到 ,其 中 d; 是 属于 类 别 C; 的 训练 样本 
的 个 数 ,d 是 训练 样本 的 总 数 。 若 属性 A 是 离散 的 , 则 概率 可 由 PG | Ci) =da/di 计算 得 
到 ,其 中 da 是 训练 样本 集合 中 属于 类 C; 并 且 属 性 A 取 值 为 x 的 样本 个 数 ,d; 是 属于 类 C， 
的 训练 样本 的 个 数 。 朴 素 贝 叶 斯 分 类 的 工作 过 程 如 下 。 

COD 用 一 个 维特 征 向 量 和 X= (zi ,xs，… ,zn) 来 表示 数据 样本 ,描述 样本 XX 对 n 个 属性 
Ay Aas A, 的 度量 。 

(2) 假定 样本 空间 有 mm 个 类 别 状态 Ci Co Cu ,对 于 给 定 的 一 个 未 知 类 别 标号 的 数 
据 样 本 X, 分 类 算法 将 X 判定 为 具有 最 高 后 验 概率 的 类 别 , 也 就 是 说 ,朴素 贝 叶 斯 分 类 算法 
将 未 知 类 别 的 样本 X 分 配给 类 别 Ci, 当 且 仅 当 对 于 任意 的 j ,有 POCO PO; |X) 成 立 ， 
1xCjsm.jszi.fli PCC; | XO WERKER C; 被 称 为 最 大 后 验 假定 。 

(3) 由 于 P(X) 不 依赖 于 类 别 状态 ,对 于 所 有 类 别 都 是 常数 , 则 根据 贝 叶 斯 定理 ,最 大 化 
P(Ci|X) 只 需要 最 大 化 P(XIC;)P(C;) 即 可 。 如 果 类 的 先 验 概率 未 知 , 则 通常 假设 这 些 类 
别 的 概率 是 相等 的 , 即 PCC) = PC) —-- — P Cn) ,所 以 只 需要 最 大 化 P(X|C;) 即 可 , 否 
则 就 要 最 大 化 PCX1Ci)P(Ci)。 其 中 可 用 频率 Si/S 对 P(C;) 进 行 估计 计算 ,S; 是 给 定 类 别 
Ci 中 训练 样本 的 个 数 ,S 是 训练 样本 (实例 空间 ) 的 总 数 。 

(4) 当 实 例 空 间 中 训练 样本 的 属性 较 多 时 ,计算 PCX1C;) 可 能 会 比较 费时 ,开销 较 大 ， 
此 时 可 以 做 条 件 独立 性 的 假定 : 在 给 定 样本 类 别 标号 的 条 件 下 ,假定 属性 值 是 相互 条 件 独 
立 的 ,属性 之 间 不 存在 任何 依赖 关系 , 则 下 面 等 式 成 立 

P(X | C) = TL Bc | C2 


k=1 
其 中 概率 PCa | Ci) PC) Ci) «PG, Ci) A HE ETT h RF AS 2s [8] AH ARE ABS HE (7 fi 
实际 问题 中 根据 样本 属性 A 的 离散 连续 性 质 , 考 虑 下 面 两 种 情形 。 

。 如 果 属 性 AL 是 连续 的 , 则 一 般 假定 它 服 从 正 态 分布 , 从 而 来 计算 类 条 件 概率 。 

。 如 果 属 性 A 是 离散 的 , 则 P(ze|C:) 王 Sa/Si, 其 中 Sz 是 在 实例 空间 中 类 别 为 C; 的 样 

本 中 属性 A, 上 取 值 为 zs 的 训练 样本 个 数 , 而 S; 是 属于 类 别 C; 的 训练 样本 个 数 。 

O) 对 于 未 知 类 别 的 样本 X HENKI C; 分 别 计算 PCX1Ci)P(CCi)。 样 本 X 被 认为 
属于 类 别 C;, 当 且 仅 当 PCXICD)P(CCD)>PCXICD)P(CCD) 1S jm. jAi, HR WA X 
被 指派 到 使 PCXIC;)P(C;) 取 得 最 大 值 的 类 别 C; 。 








村 于 由 对 斯 分 类 算法 
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朴素 贝 叶 斯 分 类 模型 的 算法 描述 如 下 。 

(1) 对 训练 样本 数据 集 和 测试 样本 数据 集 进 行 离散 化 处 理 和 缺失 值 处 理 。 

(2) 扫描 训练 样本 数据 集 ,分 别 统 计 训练 集中 类 别 为 Ci 的 样本 个 数 d; 和 属于 类 别 C; 
的 样本 中 属性 A 取 值 为 zx 的 实例 样本 个 数 dx ,构成 统计 表 。 

(3) 计算 先 验 概率 POC) —d;/d 和 条 件 概 率 P(Ai 二 zx|Ci) 二 da /di, 构 成 概率 表 。 

CD. 构建 分 类 模型 CCX) 一 arg maxP (C:) P(X|C:). 

(5) 扫描 待 分 类 的 样本 数据 集 ,调用 已 得 到 的 统计 表 、 概 率 表 以 及 构建 好 的 分 类 准则 ， 
得 出 分 类 结果 。 


6.1.4 朴素 贝 叶 斯 分 类 器 实例 分 析 


【 例 6.1】 应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 根据 天 气 状况 来 判断 某 
天 是 否 适合 于 打 网 球 。 给 定 表 6-1 所 示 的 14 个 训练 实例 ,其 中 每 一 天 由 属性 Outlook, 
Temperature, Humidity 和 Wind 表征 ,类 属性 为 Play Tennis. 


表 6-1 14 个 训练 实例 



























































Day Outlook Temperature Humidity Wind Play Tennis 
1 sunny hot high weak no 
2 sunny hot high strong no 
3 overcast hot high weak yes 
4 rain mild high weak yes 
5 rain cool normal weak yes 
6 rain cool normal strong no 
7 overcast cool normal strong yes 
8 sunny mild high weak no 
9 sunny cool normal weak yes 
10 rain mild normal weak yes 
1 sunny mild normal strong yes 
12 overcast mild high strong yes 
13 overcast hot normal weak yes 
14 rain mild high strong no 

现在 有 一 个 测试 实例 x; < Outlook = sunny. 

Temperature = cool, Humidity = high. Wind = (c) 


strong >, 问 这 一 天 是 否 适 合 于 打 网 球 。 显 然 , 本 题 的 

任务 就 是 要 预测 此 新 实例 的 类 属性 Play Tennis 取 值 

(yes 或 no). 为 此 ,需要 构建 如 图 6-2 Bros HO db x UL 

叶 斯 网 络 分 类 器 。 9 c o Q 
图 中 的 类 结 点 C 表示 类 属性 Play Tennis. 其 他 图 6-2 ”朴素 贝 叶 斯 分 类 器 的 结构 

4 个 结 点 Ai Az As A, 分 别 代 表 4 个 属性 Outlook, 

Temperature, Humidity 和 Wind, 类 结 点 C 是 所 有 属性 结 点 的 父亲 结 点 ,属性 结 点 和 属性 结 

点 之 间 没 有 任何 的 依赖 关系 。 根 据 公 式 , 有 





VG) = arg maxP(c)P(sunny | c) P(cool | c)PChigh | c)P(Cstrong | c) 


cE Tyesyno } 


为 了 计算 V Cao ,需要 从 如 表 6-1 所 示 的 14 个 训练 实例 中 估计 出 概率 。 
P(yes).P(sunny | yes). PCcool | yes).P(high | yes).P(strong | yes ,PCno) 


P(sunny | no) .P(cool | no) .PChigh | no). P(strong | no). 


具体 的 计算 如 下 。 


所 以 ,有 


卫 (yes) = 9/14 


P(sunny | yes) = 2/9 


P(cool | yes) = 3/9 
P(high | yes) = 3/9 


P(strong | yes) = 3/9 


P(no) = 5/14 


P(sunny | no) = 3/5 


P(cool | no) = 1/5 
P(high | no) = 4/5 


P(strong | no) = 3/5 


P(yes) P(sunny | yes) P(cool | yes) PChigh | yes) P(strong | yes) = 0. 005 291 
P(no)P(sunny | no) PCcool | no) PChigh | no) P(strong | no) = 0.020 570 4 
可 见 , 朴 素 贝 叶 斯 分 类 器 将 此 实例 分 类 为 no。 
[56.2] 应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 给 出 一 个 商场 顾客 数据 
库 ( 训 练 样本 集合 ) ,判断 某 一 顾客 是 否 会 买 计算 机 。 给 定 表 6-2 所 示 的 15 个 训练 实例 ,其 
中 每 个 实例 由 属性 age, income, student, credit rating 表征 .样本 集合 的 类 别 属性 为 buy 
computer ,该 属性 有 两 个 不 同 取 值 , 即 {yes,no}, 因 此 就 有 两 个 不 同 的 类 别 (mm= 一 2)。 设 Ci 


对 应 yes 2850] Ce 对 应 no 类 别 。 






































表 6-2 15 个 训练 实例 
age income student credit rating buy computer 
<30 high no fair no 
<30 high no excellent no 
30…40 high no fair yes 
>40 medium no fair yes 
>40 low yes fair yes 
>40 low yes excellent no 
31…40 low yes excellent yes 
<30 medium no fair no 
<30 low yes fair yes 
>40 medium yes fair yes 
<30 medium yes excellent yes 
31…40 medium no excellent yes 
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B 
income student credit rating buy computer 
high yes fair yes 
>40 medium no excellent no 














现在 有 一 个 测试 实例 x: Cage <=30, Income = medium, Student = yes, Credit rating = 
Fair) , 问 这 一 顾客 是 否 会 买 计算 机 ,本 题 的 任务 是 要 判断 给 定 的 测试 实例 是 属于 Ci 还 是 
Cz ,根据 公式 ,有 : 
Vix) = arg maxP(c) P(age < 30 | c)P(medium | c) P(yes | c) P (fair | c) 
为 计算 V(x), 先 计算 每 个 类 的 先 验 概率 PCCO : 
P(Ci): P(buy computer = 'yes') = 9/14 = 0. 643 
P(buy computer = 'no') = 5/14 = 0. 357 

为 计算 POX|CO ,一 1,2, 计 算 下 面 的 条 件 概率 。 
P(age ='< 30'| buy computer ='yes') = 2/9 = 0. 222 
P(age ='< 30'| buy computer ='no') = 3/5 = 0.6 
P (income = 'medium'| buy computer = 'yes') = 4/9 = 0.444 
P(income = 'medium'| buy computer ='no') = 2/5 = 0.4 
P(student = 'yes'| buy computer = 'yes') = 6/9 = 0. 667 
P(student — 'yes'| buy computer = 'no') = 1/5 = 0.2 
P(credit rating = 'fair'| buy computer ='yes') = 6/9 = 0. 667 
P(credit rating = 'fair'| buy computer ='no') = 2/5 = 0.4 
X = (age < 30.income = medium. student = yes.credit rating = fair) 
P(X | C;);P(X | buy computer = 'yes') = 0. 222 X 0. 444 X 0. 667 X 0. 667 = 0. 044 
P(X | buy computer = 'no') = 0.6 X 0.40.2 X 0.4 = 0.019 
P(X | CO * P(C;):P(X | buy computer ='yes') * P( buy computer = 'yes') = 0.028 
P(X | buy computer = 'no') * P(buy computer ='no') = 0.007 

V I SET RE ASX, Abe UL nm ry 2S FHL ZK Ry buy computer= 'yes'. 


6.2 朴素 贝 叶 斯 算法 的 特点 及 应 用 


6.2.1 朴素 贝 叶 斯 算法 的 特点 


朴素 贝 叶 斯 分 类 算法 有 诸多 优点 : 逻辑 简单 .易于 实现 、 分 类 过 程 中 算法 的 时 间 空 间 开 
销 比较 小 ; 算法 比较 稳定 、 分 类 性 能 对 于 具有 不 同 数 据 特点 的 数据 集合 来 说 ,其 差别 不 大 ， 
即 具有 比较 好 的 健壮 性 等 优点 。 

在 实际 情况 中 ,尽管 难以 满足 朴素 贝 叶 斯 模型 的 属性 类 条 件 独立 性 假定 ,但 它 分 类 预测 
效果 在 大 多 数 情况 下 仍 比较 精确 。 原 因 有 如 下 几 个 : 要 估计 的 参数 比较 少 ,从 而 加 强 了 估 
计 的 稳定 性 ; 虽然 概率 估计 是 有 偏 的 ,但 人 们 大 多 关心 的 不 是 它 的 绝对 值 ,而 是 它 的 排列 次 
序 , 因 此 有 偏 的 概率 估计 在 某 些 情况 下 可 能 并 不 要 紧 ; 现实 中 很 多 时 候 已 经 对 数据 进行 了 





预 处 理 , 例 如 对 变量 进行 了 筛选 ,可 能 已 经 去 掉 了 高 度 相 关 的 量 等 。 除 了 分 类 性 能 很 好 外 ， 
贝 叶 斯 分 类 模型 还 具有 形式 简单 、 可 扩展 性 强 和 可 理解 性 好 等 优点 。 

朴素 贝 叶 斯 分 类 器 的 缺点 是 属性 间 类 条 件 独 立 的 这 个 假定 ,而 很 多 实际 问题 中 这 个 独 
立 性 假设 并 不 成 立 , 如 果 在 属性 间 存 在 相关 性 的 实际 问题 中 忽视 这 一 点 ,会 导致 分 类 效果 
下 降 。 

朴素 贝 叶 斯 分 类 模型 虽然 在 某 些 不 满足 独立 性 假设 的 情况 下 其 分 类 效果 比较 好 ,但 是 
大 量 研究 表明 可 以 通过 各 种 改进 方法 来 提高 朴素 贝 叶 斯 分 类 器 的 性 能 。 朴 素 贝 叶 斯 分 类 器 
的 改进 方法 主要 有 两 类 : 一 类 是 弱化 属性 的 类 条 件 独立 性 假设 ,在 朴素 贝 叶 斯 分 类 器 的 基 
础 上 构建 属性 间 的 相关 性 ,如 构建 相关 性 度量 公式 ,增加 属性 间 可 能 存在 的 依赖 关系 ; 另 一 
类 是 构建 新 的 样本 属性 集 ,期 望 在 新 的 属性 集中 ,属性 间 存 在 较 好 的 类 条 件 独立 关系 。 


6.2.2 朴素 贝 叶 斯 算法 的 应 用 场景 


朴素 贝 叶 斯 算法 应 用 很 广泛 ,下 面 举 两 个 实例 说 明 其 应 用 情况 。 

1. 贝 叶 斯 方法 在 中 医 证 候 和 症状 描述 中 的 应 用 

中 医 证 候 和 症状 描述 错综复杂 ,如 何 较 好 地 对 病 患 所 属 证 候 进 行 鉴别 诊断 ,一 直 是 临床 
医疗 工作 者 的 首要 目标 ,把 数据 挖掘 技术 的 朴素 贝 叶 斯 分 类 方法 应 用 到 中 医 证 候 的 诊断 识 
别 中 ,是 一 个 较 好 的 尝试 。 在 使 用 朴素 贝 叶 斯 分 类 方法 对 中 医 证 候 进 行 分 类 识别 并 用 遗传 
算法 改进 时 ,经 历 了 以 下 过 程 : 首先 合理 抽象 鉴别 诊断 过 程 并 建立 数学 模型 ; 其 次 ,提出 了 
使 用 数据 挖掘 技术 中 的 朴素 贝 叶 斯 分 类 方法 对 模型 求解 ; 第 三 ,考虑 到 特征 数量 较 大 ,运用 
了 遗传 算法 进行 特征 优化 ; 最 后 ,使 用 医学 上 常用 的 ROC 曲线 评价 方法 对 改进 前 后 的 分 类 
识别 的 效率 进行 分 析 比 较 。 

2. 贝 叶 斯 方法 在 玉米 叶 部 病害 图 像 识别 中 的 应 用 

在 图 像 分 割 和 特征 提取 的 基础 上 ,利用 朴素 贝 叶 斯 分 类 器 的 统计 学 习 方 法 ,可 以 实现 玉 
米 叶 部 病 斑 的 分 类 识别 。 相 关 文 献 表 明 , 贝 叶 斯 分 类 器 具有 网 络 结构 简单 .易于 扩展 等 特 
点 ,对 玉米 叶 部 病害 的 分 类 识别 效果 较 好 ,也 为 其 他 作物 病害 图 像 识 别 的 研究 提供 了 借鉴 。 


6.3 朴素 贝 叶 斯 源 代码 结果 分 析 


朴素 贝 叶 斯 源 代 码 包 括 JavaBean. java 和 TestBayes. java 两 个 文件 ,相关 程序 和 实验 
数据 可 从 github 中 下 载 ,网 址 为 https://github. com/guanyaol / bayes. git. 
1. JavaBean, java 











package bayes; 
public class JavaBean { 
int age; 
String income; 
String student; 
String credit_rating; 
String buys_computer; 
public JavaBean(int age, String income, String student, 
String credit_rating, String buys_computer) { 
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this.age = age; 

this. income = income; 

this.student = student; 
this.credit_rating = credit_rating; 
this.buys computer = buys computer; 


public int getAge() ( 
return age; 
} 
public void setAge(int age) { 
this.age = age; 
} 
public String getIncome() { 
return income; 
} 
public void setIncome(String income) { 
this. income = income; 
} 
public String getStudent() { 
return student; 
} 
public void setStudent( String student) { 
this. student = student; 
) 
public String getCredit rating() { 
return credit rating; 
} 
public void setCredit_rating(String credit_rating) { 
this.credit_rating = credit_rating; 
} 
public String getBuys_computer() { 
return buys_computer; 
} 
public void setBuys_computer(String buys_computer) { 
this.buys computer = buys computer; 
) 
@Override 
public String toString() { 
return "JavaBean [age=" + age + ", income=" + income + ", student =" 
+ student + ", credit_rating=" + credit_rating 
+ ", buys computer =" + buys computer + "]"; 


2. TestBayes. java 


package bayes; 


import java. io. BufferedReader; 
import java. io. File; 
import java. io. FileReader; 
import java. util. ArrayList; 
public class TestBayes { 
// 朴 素 贝 叶 斯 算法 算法 的 思想 
public static RrrayList<JavaBean > list = new ArrayList < JavaBean >( ) ; 
static int data_length = 0; 
public static void main(String[] args) { 
//1. 读 取 数 据 , 放 入 list 容器 中 
File file = new File("C:\\Users\\wang4\\Desktop\\beiyes. txt") ; 
txt2String(file) ; 
// 数 据 测试 样本 
testData(25, "Medium", "Yes", "Fair"); 


// 读 取样 本 数据 
public static void txt2String(File file) { 
try { 
BufferedReader br = new BufferedReader(new FileReader(file) ) ; 
// 构造 一 个 BufferedReader 类 来 读 取 文 件 
Strings = null; 
while ((s = br.readLine()) != null) ( // 使 用 readLine 方法 ,一 次 读 一 行 
data length**; 
splitt(s); 
} 
br. close(); 
} catch (Exception e) { 
e. printStackTrace( ) ; 


} 
// 存 入 ArrayList 中 
public static void splitt(String str) { 
String strr = str.trim(); 
String[] abc = strr. split("[\\p{Space}] +"); 
int age = Integer.parseInt(abc[0]); 
JavaBean bean = new JavaBean(age, abc[1], abc[2], abc[3], abc[4]); 
list. add(bean) ; 


// 训 练 样本 , 测试 
public static void testData(int age, String a, String b, Stringc) { 
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// 训 练 样本 

int number yes = 0; 

int bumber no = 0; 
//age 情况 个 数 

int num age yes = 0; 
int num age no = 0; 
//income 

int num_income_yes = 0; 
int num_income_no = 0; 
//student 

int num_student_yes = 0; 
int num_student_no = 0; 
//credit 

int num_credit_yes = 0; 


int num_credit_no = 0; 


// 遍 历 List 获得 数据 
for (int i = 0; i< list. size(); i++) { 
JavaBean bb = list.get(i); 
if (bb. getBuys_computer().equals("Yes")) { //Yes 
number yes**; 
if (bb.getIncome().equals(a)) ( // income 
num income yes**; 
} 
if (bb.getStudent().equals(b)) { //student 
num student yes**; 
] 
if (bb.getCredit rating().equals(c)) ( //credit 
num credit yes**; 
} 
if (bb. getAge() == age) { //age 
num age yes**; 


} 


} else { //No 

bumber no**; 

if (bb.getIncome().equals(a)) ( // income 
num income no**; 

} 

if (bb. getStudent(). equals(b)) { //student 
num stdent no**; 

} 


if (bb. getCredit_rating().equals(c)) { //credit 
num credit no**; 

} 

if (bb.getAge() == age) { //age 


num_age_no++; 


System. out.println(" 购 买 的 历史 个 数 :" + number yes); 
System. out. println(" 不 买 的 历史 个 数 :" + number_no); 
System. out. println(" 购 买 +age:" + num age yes); 
System. out.println(" 不 买 +age:"” + num age no); 
System. out. println(" 购 买 + income:" + num income yes); 
System. out. print1n(" 4s + income:" + num income no); 
System, out. print1n(" W X + student:" + num student yes); 
System. out. print1n(" 43K + student:" + num student no); 
System. out. print1n(" JJ X + credit:" + num credit yes); 
System. out. print1n(" 4. & + credit:" + num credit no); 
// 概 率 判断 
double buy yes = number yes * 1.0/data_length; // 买 的 概率 
double buy no = bumber no * 1.0 / data length; — // 不 买 的 概率 
Systen. out. println(" 训 练 数据 中 买 的 概率 :”+ buy yes); 
System. out. println(" 训 练 数据 中 不 买 的 概率 :”+ buy no); 
// 未 知 用 户 的 判断 
double nb buy yes = (1.0 * num age yes / number yes) 

* (1.0 + num income yes / number yes) 

* (1.0 * num student yes / number yes) 

* (1.0 * num credit yes / number yes) * buy yes; 
double nb buy no = (1.0 * num age no / bumber no) 

* (1.0 * num income no / bumber no) 

* (1.0 * num student no / bumber no) 

* (1.0 * num credit no / bumber no) * buy no; 
System. out.println(" 新 用 户 买 的 概率 :”+ nb buy yes); 
System. out. println(" 新 用 户 不 买 的 概率 :”+ nb buy no); 
if (nb_buy_yes > nb buy no) { 

System. out. println(" 新 用 户 买 的 概率 大 "); 
} else { 
System. out. println(" 新 用 户 不 买 的 概率 大 "); 





} 

程序 运行 界面 如 图 6-3 所 示 。 

上 面 的 运行 结果 说 明了 我 们 应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 25 岁 
的 student 根据 工资 水 平 的 购买 情况 ; 如 图 6-3 所 示 : 年 龄 为 25 岁 、 收 入 中 等 的 情况 下 , 购 
买 的 历史 个 数 为 9, 不 买 的 历史 个 数 为 5, 购买 的 学 生 数 为 6, 不 买 的 学 生 数 是 1, 信 誉 度 分 别 
是 购买 的 为 6, 不 买 的 为 2, 统 计 出 了 综合 训练 数据 中 买 的 概率 和 不 买 的 概率 ; 也 预测 了 一 
下 新 用 户 买 的 概率 和 不 买 的 概率 ,并 比较 得 出 : 新 用 户 买 的 概率 大 。 
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购买 的 历史 个 数 :9 

不 买 的 历史 个 数 :5 

购买 tage:2 

不 买 tage:3 

购买 +income:4 

不 买 +income:2 

购买 +atundent :6 

AR+student:1 

购买 +credir:6 

不 买 +credit:2 

训练 数据 中 买 的 概率 :0.6428571428571429 
训练 数据 中 不 买 的 概率 :0.35714285714285715 
新 用 户 买 的 概率 :0.028218694885361547 
新 用 户 不 买 的 概 鞭 :0.006857142857142858 
新 用 户 买 的 概率 大 





图 6-3 朴素 贝 叶 斯 程序 运行 界面 


6.4 基于 阿里 云 数 加 平台 的 朴素 贝 叶 斯 实例 


朴素 贝 叶 斯 分 类 是 一 种 应 用 基于 独立 假设 的 贝 叶 斯 定理 的 简单 概率 分 类 算法 , 它 通 过 
计算 某 一 条 数据 假设 为 各 个 标签 时 的 概率 ,选择 其 中 概率 最 大 的 作为 该 条 数据 的 标签 。 该 
算法 具有 简单 高效 .分 类 效果 稳定 的 优点 ; 不 足 之 处 是 : 为 了 简化 分 类 模型 ,而 假定 分 类 
数据 各 个 属性 间 是 相互 独立 的 ,因此 当 各 个 属性 之 间 的 关联 性 不 高 时 ,朴素 贝 叶 斯 算法 是 一 
个 很 好 的 选择 。 总 体操 作 思路 与 逻辑 回归 分 类 算法 一 样 ,这 里 选择 网 上 的 某 一 组 数据 ,其 训 
练 数据 与 测试 数据 图 如 图 6-4 和 图 6-5 所 示 , 其 中 ,y 为 标签 列 ,f0 一 f7 为 非 标签 列 。 





y * n n n “ 6 6 " 
1 -0294118 0487437 0.180328 -0292929 -1 000149028 -0.53117 -0,0333333 
+1 -0882353 -0.145729 00819672 -0414141 -1 -0.207153 -0.766866 -0.666667 
1 -00588235 0839196 00491803 | -1 1 0305514 0492741  -0633333 
1 -0882353 -0.105528 00819672 | -0.535354  -0777778 -0.162444 -0923997 -1 


a 076884 -0.344262 -0.292929 -0602837 028465 0887276 — -06 


-0411765 0165829 0.213115 | -1 -1 -0.23696 -0894962 -07 


id 
1 
2 
3 
4 
5 
6 
7 
8 0376471 0.155779 -1 -1 -1 0.052161 -0952178  -0733333 
9 


1 
1 

-1 -0647059 -0.21608 -0.180328 -0.353535 -0791962 -0.0760059 -0.854825 -0.833333 
1 

1 -0764706 0.979899 0.147541 -0.0909091 0.283688 -00909091 -0.931682  0.0666667 
1 


10 |- 00588235 0.256281 0.57377 -1 1 A 0868488 — 01 


图 6-4 训练 数据 图 


用 训练 数据 使 用 贝 叶 斯 分 类 算法 进行 训练 ,然后 对 测试 数据 进行 测试 ,可 以 得 到 其 分 类 
的 准确 率 等 信息 ,操作 流程 图 如 图 6-6 所 示 , 左 边 为 训练 数据 ,右边 为 测试 数据 ,通过 训练 数 
据 训 练 过 后 的 朴素 贝 叶 斯 分 类 器 ,用 来 预测 测试 数据 的 标签 ,然后 与 测试 数据 的 原 标签 进行 
对 比 。 多 分 类 评估 与 混淆 矩阵 类 似 , 可 以 得 到 准确 率 及 相关 参数 。 

朴素 贝 叶 斯 算法 的 字段 设置 如 图 6-7 所 示 , 其 中 特征 列 选择 的 训练 数据 中 的 是 £0 ~ £7 
列 , 排 除 列 用 于 反选 特征 列 ,不 可 与 特征 列 并 存 , 强制 转换 列 的 默认 解析 规则 为 : string, 




















id y 

1a 
2 ja 
3 +1 
4 1 
5 -1 
6 n 
7 -1 
s ja 
9 4 
10 +1 


o 


-0.882353 


-0294118 


-0882353 


-0.176471 


-0.529412 


-0882353 


-0.882353 


-0.882353 


-1 


-0.882353 


n 


-00351759 -1 


0.246231 


0.507538 


0.839196 


0.246231 


0.819095 


0.527638 


n B “ 6 t " 
00854271 。 0442623 -0616162 -1 -0192235 -0725021 -09 
a -1 -0.293592 -0904355 -0.766667 
0213115 -0272727 -1 -0171386 -0981213 -07 
0.278689 -0414141 -0702128  0.0491804  -0475662 01 
a a a -0153502 -0885568  -05 
-00163934 -0353535 -1 00670641 -0.627669 -1 
0.278689 -0151515 -0.307329 0.19225 0.00768574 -0.966667 
-0,0753769 00163934 -0494949 -0.903073 -0418778 -0.654996 -0.866667 
0.344262 -0212121 -0.356974 0.23696 -0.836038 -08 
00163934 -0737374 -0.56974 -028465  -0948762 -0933333 


0.115578 


图 6-5 测试 数据 图 


boolean, datetime 类 型 的 列 解析 为 离散 类 型 ; double、bigint 类 型 的 列 解析 为 连续 类 型 ; 若 
有 将 bigint 解析 为 categorical 的 情况 ,通过 参数 forceCategorical 指定 。 
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图 6-6 朴素 贝 叶 斯 算法 流程 图 























图 6-7 朴素 贝 叶 斯 字段 设置 图 


预测 组 件 的 实验 结果 如 图 6-8 所 示 , 可 以 看 到 只 有 倒数 第 二 条 预测 的 标签 有 误 , 其 他 均 


正确 。 


Prediction result. —— 


-4.842928791659... 


prediction score a 


1.1253341740304... 
21096017126455... 
1.0119555555558... 


-16.49991472469... 
-61291274633.67__ 


-18.28658192739. 
2701748842959... 


1821899791703... 


| 3088051422948... 


| prediction detail = 













(717. 1.125334174030447, 7-1". -18.26887905024316]. 
( 7*1". 2109601712645577, *-1". -22 86762826457826) 
{717 1.011955555555831 
| (7+1 33.18118539397123, ~- 
{1 -688535196307.7689, 
("1% -4.842928791659737, 


-17.12262756256134} 
16.49991472469541} 
-61291274633.67934} 
* -17.8490897549666] 


{+17 -89.31454432308786, ~1": -18.28658192739197) 
{7+1 -2.701748842959141, 7-1": -17.85795905226513} 
("417 -20.76204601810873, -1* -18.21899791703504] 
{ "+17 -3.088051422948976, 7-1" -17.70615005830097] 








图 6-8 ”预测 组 件 的 实验 结果 
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多 分 类 评估 组 件 的 得 到 的 实验 结果 如 图 6-9 所 示 , 可 以 得 到 准确 率 及 其 他 参数 。 
wm mere | menaa | rarena | Toopoo| oras, | spews | Pda | ign | ria | me 


E 6 3 o 1 0857142 1 1 09 09 078. 


EI 3 6 1 o 1 0857142 075 09 os. 078.. 





图 6-9 实验 结果 图 


6.5 小 结 


贝 叶 斯 方法 是 一 种 研究 不 确定 性 的 推理 方法 ,不 确定 性 常用 贝 叶 斯 概率 表示 , 它 是 一 种 
主观 概率 。 朴 素 贝 叶 斯 分 类 算法 有 诸多 优点 : 逻辑 简单 、 易 于 实现 、 分 类 过 程 中 算法 的 时 间 
空间 开销 比较 小 ; 算法 比较 稳定 ; 分 类 性 能 对 于 具有 不 同 数据 特点 的 数据 集合 来 说 ,其 差 
别 不 大 , 即 具 有 比较 好 的 健壮 性 等 优点 。 


B 考 B 


l. 简 述 朴素 贝 叶 斯 分 类 的 工作 过 程 。 
2. R 6-3 是 购买 汽车 的 顾客 分 类 训练 样本 集 。 假 设 顾客 的 属性 集 家 庭 经 济 状况 、 信 用 
































级 别 和 月 收入 之 间 条 件 独 立 , 则 对 于 某 顾客 (测试 样本 ), 已 知 其 属性 集 X 一 < 一 般 , 优 秀 ， 
12K >, 利 用 朴素 贝 叶 斯 分 类 器 计算 这 位 顾客 购买 汽车 的 概率 。 
表 6-3 购买 汽车 的 顾客 训练 样本 集 
序 号 家 庭 经 济 状况 信用 级 别 月 收入 购买 汽车 
1 一 般 优秀 10K 是 
2 好 优秀 12K 是 
3 一 般 优秀 6K 是 
4 一 般 良好 8. 5K 否 
5 一 般 良好 9K f 
6 一 般 优秀 7.5K 是 
7 好 一 般 22K 是 
8 一 般 一 般 9.5K a 
9 一 般 良好 7K 是 
10 好 良好 12.5K 是 
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7.1 随机 森林 算法 简介 


由 于 传统 的 很 多 分 类 方法 具有 精度 不 高 且 容 易 出 现 过 拟 合 的 问题 ,因此 可 以 通过 聚集 
多 个 模型 的 方法 来 提高 预测 精度 ,这 种 方法 称 为 组 合 (ensemble) 或 分 类 器 组 合 (classifier 
combination) 方 法 。 该 类 方法 首先 利用 训练 集 数据 构建 一 组 基本 的 分 类 模型 (base 
classifier) ,然后 通过 对 每 个 基 分 类 模型 的 预测 值 进 行 投票 ( 因 变 量 为 离散 变量 时 ) 或 取 平 均 
值 ( 因 变量 为 连续 数值 变量 ) 来 决定 最 终 预 测 值 =] 。 


7.1.1 随机 森林 算法 原理 


为 了 生成 这 些 组 合 模型 ,通常 要 生成 随机 向 量 控制 组 合 中 每 个 决策 树 的 生成 。Bagging 
是 早期 组 合 树 方法 之 一 ,又 称 为 自助 聚集 (bootstrap aggregating) ,这 是 一 种 从 训练 集中 随 
机 抽取 部 分 样本 (不 一 定 是 有 放 回 抽样 ) 来 生成 决策 树 的 方法 ; 还 有 一 种 方法 是 随机 分 割 选 
取 , 该 方法 在 每 个 结 点 从 K 个 最 优 分 割 中 随机 选取 一 种 分 割 。Ho 对 随机 子 空间 (radom 
subspace) 方 法 进行 了 深入 研究 并 通过 对 特征 变量 随机 选取 子 集 来 生成 每 棵 决策 树 。Leo 
Breiman 和 Adele Cutler 给 出 了 随机 森林 (Radom Forest,RF) 算 法 ,该 方法 是 结合 了 自助 聚 
集 (bootstrap aggregating) 想 法 和 Ho 的 随机 子 空间 (random subspace) 方 法 ,以 建造 决策 树 
的 集合 。 

RF 方法 是 一 种 统计 学 习 理 论 , 它 利用 bootstrap 重 抽样 方法 从 原始 样本 中 抽取 多 个 样 
本 ,对 每 个 bootstrap 样本 进行 决策 树 建 模 ,然后 组 合 多 棵 决策 树 的 预测 ,通过 投票 得 出 最 
终 预测 结果 。 具 体 来 说 ,RF 方法 是 由 很 多 决策 树 分 类 模型 (h(X,0;) ,i 二 1,2,… k) ER 
组 合 分 类 模型 , 且 参 数 集 (0 ) 是 独立 同 分 布 的 随机 向 量 ,在 给 定 自 变 量 X 前 提 下 ,每 个 决策 
树 分 类 模型 都 由 一 票 投票 权 选 择 最 优 的 分 类 结果 。REF 的 基本 思想 是 ,首先 利用 bootstrap 
抽样 从 原始 训练 集中 选取 个 样本 , 且 每 个 样本 的 样本 容量 都 与 原始 训练 集 一样 ; 其 次 ,对 
k 个 样本 分 别 建立 & 个 决策 树 模 型 ,得 到 种 分 类 结果 ; 最 后 ,根据 种 分 类 结果 对 每 个 记 
录 进 行 投票 表决 ,决定 其 最 终 分 类 ,如 图 7-1 所 示 。 

RF 通过 构造 不 同 的 训练 集 增加 分 类 模型 间 的 差异 ,从 而 提高 组 合 分 类 模型 的 外 推 预 
测 能 力 。 通 过 & 轮 训练 ,得 到 一 个 分 类 模型 序列 (hi(XX) sha (X), a CO HA ENTA E 
一 个 多 分 类 模型 系统 ,该 系统 的 最 终 分 类 结果 可 以 采用 简单 多 数 投票 法 ,最 终 的 分 类 决策 
如 下 。 
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图 7-1 RF 算法 原理 图 


k 
H(X) = argmax 2, 10,00 =Y) 
其 中 ,有 H(X) 表 示 组 合 分 类 模型 ,h; 是 单个 决策 树 分 类 模型 ,Y 表示 输出 变量 ,IC* ) 是 示 性 


函数 。 式 (7-1) 说 明了 使 用 多 数 投票 决策 的 方法 来 决定 最 终 的 分 类 。 





投票 决 
定 最 优 
分 类 





(7-1) 


需要 说 明 的 是 ,参数 0 ,i 二 1,2,…,k 是 一 个 随机 变量 序列 , 它 是 由 随机 森林 的 两 大 随机 


化 思想 决定 的 外。 
1. Bagging 思想 





从 原始 样本 集 X 中 有 放 回 地 随机 抽取 k 个 与 原始 样本 集 同 样 大 小 的 训练 样本 集 {T;， 
i—1.2.« 4) (每 次 约 有 37% 的 样本 未 被 抽 中 ), 每 个 训练 样本 集 Ti 构造 一 棵 对 应 的 决 


RW. 

2. Random subspace 思想 

在 对 决策 树 每 个 结 点 进行 分 裂 时 ,从 全 部 属性 中 等 
概率 随机 抽取 一 个 属性 子 集 ( 通 常 取 |log:M | 十 1 个 属 
性 ,M 为 特征 总 数 ) ,再 从 这 个 子 集 中 选择 一 个 最 优 属性 
来 分 裂 结 点 。 

由 于 构建 每 棵 决策 树 时 ,随机 抽取 训练 样本 和 属性 
子 集 的 过 程 都 是 独立 的 , 且 总 体 都 是 一 样 的 ,因此 0 一 
1,2,…,& 是 一 个 独立 同 分 布 的 随机 变量 序列 。 训 练 随 
机 森林 的 过 程 就 是 训练 各 个 决策 树 的 过 程 ,由 于 各 个 决 
策 树 的 训练 师 相 互 独立 ,因此 随机 森林 的 训练 可 以 通过 
并 行 处 理 来 实现 ,这 将 极 大 地 提高 生成 模型 的 效率 。 随 机 
森林 中 的 第 上 棵 决策 树 h(X,0.) 的 训练 过 程 如 图 7-2 
所 示 。 


7.1.2 随机 森林 算法 应 用 举例 


【 例 7.1】 对 于 训练 集 T 如 表 7-1 所 示 , 用 随机 森 
林 方 法 对 实例 进行 分 类 。 








等 概率 抽取 属性 子 集 
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生成 第 kt 棵 决策 树 


图 7-2 RF 中 单个 决策 树 的 训练 过 程 


抽取 第 k 个 bootstrap 训 练 样本 





表 7-1 训练 集 T 数 据 表 













































































序 号 Lı L L; L: y 
t 16 27 31 33 i 
2 15 23 30 30 1 
3 16 27 27 26 1 
4 18 20 25 23 1 
5 15 15 31 32 1 
6 15 32 32 15 1 
7 12 15 13 31 1 
8 8 23 23 11 2 
9 7 24 25 12 2 
10 6 25 23 10 2 
T 8 45 24 15 2 
12 9 28 15 12 2 
13 5 32 31 1 2 
14 22 23 12 42 3 
15 25 25 14 60 3 
16 34 25 16 52 3 
17 30 23 14 54 3 
18 25 20 11 55 3 
19 30 23 11 54 3 
20 25 20 11 55 3 

Mi: 


由 分 析 数 据 可 知 ,训练 实例 数 N==20, 特 征 数 M — 4, Y fE 09e Ls LIE 30 棵 树 ,每 棵 
树 用 2 个 特征 进行 训练 。 

(1) 从 训练 集 工 中 有 放 回 的 随机 抽取 N 个 实例 组 成 训练 集 。 

(2) 从 M 个 特征 中 无 放 回 的 随机 抽取 两 个 特征 zi\zsz。 对 进行 训练 ,生成 决策 树 。 

(3) 重复 前 两 个 过 程 ,直至 如 下 所 示 的 生成 30 棵 树 。 

4 n —L xL; 时 的 决策 树 如 图 7-3 所 示 。 

4 r —L cL; 时 的 决策 树 如 图 7-4 所 示 。 


xi<12 x212 


xi<20.5 À x; 220.5 
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图 7-3 (BE) 
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H nS sr: =L: 时 的 决策 树 如 图 7-5 所 示 。 
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当 r Locis 时 的 决策 树 如 图 7-6 所 示 。 








图 7-6 〈L:,Ls) 决 策 树 
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图 7-6 (48D 


当 zi 一 La x: =L, 时 的 决策 树 如 图 7-7 所 示 。 
当 zi 一 La zz 一 L 时 的 决策 树 如 图 7-8 所 示 。 
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(e) 
图 7-8 (Li LOR 


在 随机 森林 中 ,对 于 判定 其 类 为 1 的 有 15 棵 树 , 判 定 其 类 为 2 的 有 7 棵 树 , 判 定 其 类 为 
3 的 有 8 棵 树 , 所 以 认为 是 第 1 类 。 


7.2 随机 森林 算法 的 特点 及 应 用 


7.2.1 随机 森林 算法 的 特点 
大 量 的 理论 和 实证 研究 都 证 明了 RF 具有 很 高 的 预测 准确 率 , 对 异常 值 和 噪声 具有 很 
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好 的 容忍 度 , 且 不 容易 出 现 过 拟 合 。 可 以 说 ,RF 是 一 种 自然 的 非 线性 建 模 工具 ,随机 森林 
的 优点 如 下 。 

CD 对 于 很 多 种 资料 , 它 可 以 产生 高 准确 度 的 分 类 器 。 

(2) 它 可 以 处 理 大 量 的 输入 变量 。 

(3) 它 可 以 在 决定 类 别 时 评估 变量 的 重要 性 。 

(4) 在 建造 森林 时 , 它 可 以 在 内 部 对 于 一 般 化 后 的 误差 产生 无 偏差 的 估计 。 

(5) 它 可 以 估计 遗失 的 资料 ,并 且 如 果 有 很 大 一 部 分 的 资料 遗失 , 仍 可 以 维持 准确 度 。 

(6) 对 于 不 平衡 的 分 类 资料 集 来 说 , 它 可 以 平衡 误差 。 

CD) 它 计算 各 例 中 的 亲近 度 ,对 异常 检测 和 资料 视觉 化 非常 有 用 。 

(8) 学 习 过 程 是 很 快速 的 。 

(9) 随机 森林 不 会 产生 过 拟 合 问题 。 


7.2.2 随机 森林 算法 的 应 用 


近年 来 ,随机 森林 在 国内 外 得 到 了 迅速 发 展 ,在 医学 、 管 理学 \、 经 济 学 等 众多 领域 得 到 了 
广泛 的 应 用 。 下 面 通过 三 个 实例 说 明 随机 森林 算法 的 应 用 情况 。 

l. 利用 随机 森林 算法 进行 电力 系统 短期 负荷 预测 

电力 系统 负荷 预测 是 指 从 电力 负荷 历史 数据 及 其 影响 因素 数据 出 发 ,运用 某 种 数学 方 
法 去 推测 未 来 某 段 时 间 电力 负荷 需求 情况 。 文 献 L3] 将 随机 森林 算法 应 用 到 负荷 预测 领域 ， 
同时 采用 灰色 关联 投影 法 选取 待 预测 日 相似 日 ,达到 简化 模型 训练 ,提高 预测 精度 的 目的 。 

2. 基于 随机 森林 算法 的 农耕 区 土地 利用 分 类 研究 

土地 利用 分 类 研究 在 调整 土地 利用 结构 、 合 理 开发 土地 资源 \ 动 态 监测 土地 利用 状况 等 
环节 起 着 重要 人 作用。 遥感 技术 具有 快速 .宏观 .同步 监测 等 特点 ,为 提取 土地 利用 信息 提供 
高 效 快捷 的 技术 手段 。 结 合 遥 感 数据 和 机 器 学 习 算 法 进行 土地 利用 分 类 一 直 是 国内 外 学 者 
的 研究 热点 。 文 献 [4] 基于 随机 森林 算法 ,综合 多 季节 、 多 时 相 光 谱 信息 .纹理 信息 和 地 形 
信息 对 农耕 区 土地 利用 类 型 进行 分 类 。 分 析 不 同 特征 信息 的 加 入 对 土地 利用 分 类 结果 的 影 
响 和 各 个 特征 信息 在 分 类 过 程 中 的 重要 程度 ,并 根据 随机 森林 特征 变量 重要 性 对 高 维 变量 
降 维 ,同时 评估 了 基于 随机 森林 算法 的 多 源 信息 综合 分 类 方案 在 农耕 区 土地 利用 分 类 中 的 
实用 性 ,为 监测 农耕 区 土地 利用 状况 .规划 管理 土地 资源 提供 依据 。 

3. 随机 森林 在 企业 信用 评估 指标 体系 确定 中 的 应 用 

企业 信用 评估 是 商业 银行 资产 业务 ,特别 是 贷款 业务 经 营 的 核心 内 容 。 建 立信 用 评估 
模型 的 两 个 关键 环节 是 选择 科学 的 指标 体系 和 评估 方法 。 但 迄今 为 止 ,信用 评估 模型 指标 
体系 的 确定 仍 大 多 参考 有 关 专 家 的 建议 ,人 为 指定 。 由 于 各 专家 的 观点 不 尽 相同 ,目前 国内 
信用 评估 研究 学 者 所 采用 的 指标 体系 也 各 不 相同 。 文 献 L5] 针 对 企业 信用 评估 中 样本 数据 
指标 多 、 噪 声 复 杂 的 特点 ,提出 了 一 种 基于 随机 森林 的 评估 指标 体系 确定 方法 ,并 通过 实验 
证 明 使 用 随机 森林 确定 的 指标 体系 具有 较 好 的 分 类 准确 率 和 泛 化 性 能 。 


7.3 随机 森林 算法 源 程序 结果 分 析 


随机 森林 源 程 序 包 括 如 下 文件 : CARTTpol. java, DecisionTree. java, RandomForestTest . 
java、RandomForestTool. java 和 TreeNode. java。 相 关 程 序 和 实验 数据 可 从 github 中 下 



































载 ,网 址 为 https://github. com/guanyaol/randomforest. git. 
1. CARTTool. java 


package bayes; 


public class JavaBean { 

int age; 

String income; 

String student; 

String credit rating; 

String buys computer; 

public JavaBean( int age, String income, String student, 
String credit rating, String buys computer) ( 
this.age = age; 
this.income - income; 
this.student - student; 
this.credit rating - credit rating; 
this.buys computer - buys computer; 

} 

public int getAge() { 
return age; 

} 

public void setAge(int age) { 
this. age = age; 

i 

public String getIncome() ( 
return income; 

} 

public void setIncome(String income) { 
this. income = income; 

} 

public String getStudent() { 
return student; 

} 

public void setStudent( String student) { 
this. student = student; 

} 

public String getCredit_rating() { 
return credit_rating; 

} 

public void setCredit_rating(String credit_rating) { 
this. credit_rating = credit_rating; 

} 

public String getBuys_computer() { 


tt NB 


return buys_computer; 
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} 
public void setBuys_computer(String buys_computer) { 
this. buys_computer = buys_computer; 
} 
@Override 
public String toString() { 
return "JavaBean [age=" + age + ", income=" + income + ", student=" 
+ student + ", credit_rating=" + credit_rating 
+ ", buys computer =" + buys computer + "J"; 


j 
2. DecisionTree. java 


package randomforest; 


import java. util. ArrayList; 
import java. util. HashMap; 
import java. util. Map; 


// 决 策 树 
public class DecisionTree { 
// 树 的 根 结 点 
TreeNode rootNode; 
// 数 据 的 属性 列 名 称 
String[ ] featureNames; 
// 这 棵 树 所 包含 的 数据 
ArrayList < String[ ]> datas; 
// 决 策 树 构造 的 工具 类 
CRRTTool tool; 
public DecisionTree(ArrayList < String[ ]> datas) { 
this.datas = datas; 
this. featureNames = datas. get(0); 
tool = new CARTTool( datas); 
// 通 过 CART 工具 类 进行 决策 树 的 构建 , 并 返回 树 的 根 结 点 
rootNode = tool. startBuildingTree(); 
} 
/* 根 据 指定 的 数据 特征 描述 进行 类 别 的 判断 


* @param features 


*/ 
public String decideClassType(String features) { 
String classType = ""; 
// 查 询 属性 组 


String[ ] queryFeatures; 
// 在 本 决策 树 中 对 应 的 查询 的 属性 值 描述 
ArrayList < String[ ]> featureStrs; 


featureStrs = new ArrayList(); 
queryFeatures = features. split(","); 
String[ ] array; 
for (String name : featureNames) { 
for (String featureValue : queryFeatures) { 
array = featureValue. split("="); 
// 将 对 应 的 属性 值 加 入 到 列表 中 
证 (array[0].equals(name)) { 
featureStrs. add(array) ; 


// 开 始 从 根 结 点 往 下 递归 搜索 
classType = recusiveSearchClassType(rootNode, featureStrs) ; 
return classType; 
} 
/* 递归 搜索 树 , 查询 属性 的 分 类 类 别 
* (Qparam node ”当前 搜索 到 的 结 点 
* @param remainFeatures ”剩余 未 判断 的 属性 
* @return 
x/ 
private String recusiveSearchClassType( TreeNode node, 
ArrayList < String[ ]> remainFeatures) { 
String classType - null; 


// 如 果 结 点 包含 了 数据 的 id 索引 ,说 明 分 类 到 底 了 

if (node. getDataIndex() != null && node. getDataIndex(). size() > 0) { 
classType = judgeClassType(node. getDataIndex()); 
return classType; 

} 

// 取 出 剩余 属性 中 的 一 个 匹配 属性 作为 当前 的 判断 属性 名 称 

String[ ] currentFeature = null; 

for (String[] featueValue : remainFeatures) { 
if (node. getAttrname(). equals(featueValue[0])) ( 

currentFeature = featueValue; 


break; 
} 
} 
for (TreeNode childNode : node.getChildAttrNode()) { 
// 寻 找 结 点 中 属于 此 属性 值 的 分 支 


if (childNode. getParentAttrValue().equals(currentFeature[1])) { 
remainFeatures. remove(currentFeature) ; 
classType = recusiveSearchClassType(childNode, remainFeatures) ; 
// 如 果 找 到 了 分 类 结果 , 则 直接 跳出 循环 
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break; 
} else { 
// 进 行 第 二 种 情况 的 判断 加 上 ! 符号 的 情况 
String value = childNode. getParentAttrValue( ); 
if (value != null && value. charAt(0) == '!') { 
// 去 掉 第 一 个 "! "字符 
value = value. substring(1, value. length()); 
if (! value. equals(currentFeature[1])) { 
remainFeatures. remove(currentFeature) ; 
classType = recusiveSearchClassType(childNode, 
remainFeatures) ; 
break; 


} 
return classType; 
} 
/* 根据 得 到 的 数据 行 分 类 进行 类 别 的 决策 
* @param dataIndex 根据 分 类 的 数据 索引 号 
* @return 
x/ 
private String judgeClassType(ArrayList « String» dataIndex) ( 
// 结 果 类 型 值 
String resultClassType = ""; 
String classType = ""; 
int count = 0; 
int temp = 0; 
Map < String, Integer» type2Num = new HashMap < String, Integer >(); 
for (String index : dataIndex) { 
temp = Integer. parseInt( index); 
// 取 出 最 后 一 列 的 决策 类 别 数据 
classType = datas. get(temp)[featureNames. length - 1]; 
if (type2Num. containsKey(classType)) { 
// 如 果 类 别 已 经 存在 , 则 使 计数 加 1 
count = type2Num. get(classType) ; 
count++ ; 
} else { 
count = 1; 
} 
type2Num. put(classType, count) ; 
} 
// 选 出 其 中 类 别 支 持 技术 最 多 的 一 个 类 别 值 
count = 一 17 
for (Map. Entry entry : type2Num. entrySet()) { 


int entryValue = Integer. parseInt(entry. getValue().toString()); 
if (entryValue > count) { 

count = entryValue; 

resultClassType = (String) entry. getKey(); 


} 
return resultClassType; 


} 
3. RandomForestTest. java 


package randomforest; 


import java. io. IOException; 
import java. text. MessageFormat; 
public class RandomForestTest { 


/* 随机 森林 算法 测试 场景 
* @throws IOException 
x/ 
public static void main(String[] args) throws IOException { 
String filePath = "C:\\Users\\wang4\\Desktop\\ input. txt"; 
String queryStr = "Age = Youth, Income = Low, Student = No, CreditRating = Fair"; 
String resuleClassType = ""; 
// 决 策 树 的 样本 占 综 述 的 占 比率 
double sampleNumRatio = 0.4; 
// 样 本 数据 的 采集 特征 数量 占 总 特征 的 比例 
double featureNumRatio = 0.5; 
RandomForestTool tool = new RandomForestTool(filePath, sampleNumRat io, 
featureNumRat io) ; 
tool. constructRandonTree( ) ; 
resuleClassType = tool. judgeClassType(queryStr) ; 
System. out. println(); 
System. out 
. print1n(MessageFormat. format( 
"查询 属性 描述 {0}, 预测 的 分 类 结果 为 BuysCompute: (1)", queryStr, 
resuleClassType) ) ; 


} 
4. RandomForestTool. java 


package randomforest; 


import java. io. BufferedReader; 


import java. io.File; 
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import java. io. FileNotFoundException; 
import java. io.FileReader; 

import java. io. IOException; 

import java. util. ArrayList; 

import java. util. HashMap; 

import java. util. Map; 

import java. util.Random; 


// 随 机 森林 算法 工具 类 

public class RandomForestTool { 
// 测 试 数据 文件 地 址 
private String filePath; 
// 决 策 树 的 样本 占 综述 的 占 比率 
private double sampleNumRatio; 
// 样 本 数据 的 采集 特征 数量 占 总 特征 的 比例 
private double featureNumRatio; 
// 决 策 树 的 采样 样本 
private int sampleNum; 
// 样 本 数据 的 采集 采样 特征 数 
private int featureNum; 
// 随 机 森林 中 的 决策 树 的 数目 ,等 于 总 的 数据 数 / 用 于 构造 每 棵 树 的 数据 的 数量 
private int treeNum; 
// 随 机 数 产生 器 
private Random random; 
// 样 本 数据 列 属性 名 称 行 
private String[] featureNames; 
// 原 始 的 总 的 数据 
private ArrayList < String[]» totalDatas; 
// 决 策 树 森 林 


private ArrayList < DecisionTree > decisionForest; 


public RandomForestTool(String filePath, double sampleNumRatio, 
double featureNumRatio) throws IOException { 
this. filePath = filePath; 
this. sampleNumRatio = sampleNumRatio; 
this. featureNumRatio = featureNumRatio; 
readDataFile(); 


/x* 从 文件 中 读 取 数 据 
* @throws IOException 
*/ 
private void readDataFile() throws IOException ( 
File file = new File(filePath); 
ArrayList < String[ ]> dataArray = new ArrayList <String[ ]>(); 


try { 
BufferedReader in = new BufferedReader(new FileReader(file)); 
String str = ""; 
String[] tempArray; 
while ((str = in. readLine()) != null) { 
tempArray = str.split(" "); 
dataArray. add(tempArray); 
J 
in. close(); 
} catch (FileNotFoundException e) { 
e. printStackTrace( ) ; 
totalDatas = dataArray; 
featureNames = totalDatas. get(0); 
sampleNum = (int) ((totalDatas.size() - 1) * sampleNumRatio); 
// 算 属性 数量 的 时 候 需 要 去 掉 id 属性 和 决策 属性 ,用 条 件 属性 计算 
featureNum = (int) ((featureNames.length - 2) * featureNumRatio) ; 
// 算 数量 的 时 候 需 要 去 掉 首 行 属性 名 称 行 
treeNum = (totalDatas.size() - 1) / sampleNum; 


// 产 生 决策 树 
private DecisionTree produceDecisionTree() { 
int temp = 0; 
DecisionTree tree; 
String[ ] tempData; 
// 采 样 数据 的 随机 行 号 组 
ArrayList < Integer > sampleRandomNum; 
// 采 样 属性 特征 的 随机 列 号 组 
ArrayList < Integer > featureRandomNum; 
ArrayList < String[ ]> datas; 
sampleRandomNum = new ArrayList < Integer >(); 
featureRandomNum = new ArrayList < Integer >(); 
datas = new ArrayList <String[ ]>(); 
for (int i = 0; i< sampleNum;) { 
temp = random. nextInt(totalDatas. size()); 
// 如 果 是 行 首 属 性 名 称 行 , 则 跳 过 
if (temp == 0) { 
continue; 
} 
if (!sampleRandomNum.contains(temp)) { 
sampleRandomNum. add( temp) ; 


itt; 
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for (int i = 0; i< featureNum;) { 
temp - random.nextInt(featureNames. length) ; 


// 如 果 是 第 一 列 的 数据 id 号 或 者 是 决策 属性 列 , 则 跳 过 

if (temp == 0 || temp == featureNames. length - 1) { 
continue; 

! 

if (!featureRandomNum. contains(temp)) { 
featureRandomNum. add( temp) ; 
i++; 


} 
String[ ] singleRecord; 
String[ ] headCulumn = null; 
// 获 取 随 机 数据 行 
for (int dataIndex : sampleRandomNum) { 
singleRecord = totalDatas. get(dataIndex) ; 
// 每 行 的 列 数 = 所 选 的 特征 数 + id 号 
tempData = new String[featureNum + 2]; 
headCulumn = new String[featureNum + 2]; 
for (int i = 0, k = 1; i< featureRandomNum. size(); i++, k++) ( 
temp = featureRandomNum. get(i); 
headCulumn[k] = featureNames[ temp] ; 
tempData[k] = singleRecord[ temp]; 


// 加 上 id 列 的 信息 

headCulumn[0] = featureNames[0]; 

// 加 上 决策 分 类 列 的 信息 

headCulumn[featureNum + 1] = featureNames[featureNames. length - 1]; 
tempData[ featureNum + 1] = singleRecord[ featureNames. length - 1]; 


// 加 入 此 行 数据 
datas. add(tempData) ; 


// 加 入 行 首 列 出 现 名 称 
datas. add(0, headCulumn) ; 
// 对 筛选 出 的 数据 重新 做 id 分 配 
temp = 0; 
for (String[] array : datas) { 
// 从 第 2 行 开 始 赋值 
if (temp» 0) { 
array[0] = temp + ""; 


tempt+; 
} 
tree = new DecisionTree(datas) ; 


return tree; 


// 构 造 随机 森林 
public void constructRandomTree() { 
DecisionTree tree; 
random = new Random( ) 7 
decisionForest = new ArrayList(); 
System. out.println(" 下 面 是 随机 森林 中 的 决策 树 : "); 
// 构 造 决策 树 加 入 森林 中 
for (int i = 0; i< treeNum; i++) { 
System. out. println("\n 决策 树 " + (i + 1)); 
tree = produceDecisionTree(); 
decisionForest. add(tree) ; 


} 
/* 根据 给 定 的 属性 条 件 进行 类 别 的 决策 
* @param features 给 定 的 已 知 的 属性 描述 
* @return 
«/ 
public String judgeClassType( String features) ( 
// 结 果 类 型 值 
String resultClassType = ""; 
String classType = ""; 
int count = 0; 
Map < String, Integer» type2Num = new HashMap < String, Integer >(); 
for (DecisionTreetree : decisionForest) { 
classType = tree. decideClassType( features); 
if (type2Num. containsKey(classType)) { 
// 如 果 类 别 已 经 存在 , 则 使 其 计数 加 1 
count = type2Num.get(classType); 
count++ ; 
} else { 
count = 1; 
ji 
type2Num. put(classType, count); 
} 
// 选 出 其 中 类 别 支持 计数 最 多 的 一 个 类 别 值 
count --1; 
for (Map. Entry entry : type2Num. entrySet()) { 
int entryValue = Integer. parseInt(entry.getValue().toString()); 
if (entryValue > count) ( 
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count - entryValue; 


resultClassType - (String) entry.getKey(); 


) 
return resultClassType; 


) 
5. TreeNode. java 


package randomforest; 
import java. util. ArrayList; 


public class TreeNode { 
// 结 点 属性 名 称 
private String attrname; 
// 结 点 索引 标号 
private int nodeIndex; 
// 包 含 的 叶子 结 点 数 


private int leafNum; 





private double alpha; 

// 父 亲 分 类 属性 值 

private String parentAttrValue; 
孩子 结 点 

private TreeNode[ ] childAttrNode; 

// 数 据 记 录 索 引 

private ArrayList < String> dataIndex; 


public String getAttrname() { 
return attrname; 

} 

public void setAttrname(String attrname) { 
this.attrname = attrname; 

j 

public int getNodeIndex() { 
return nodeIndex; 

} 

public void setNodeIndex(int nodeIndex) { 
this. nodeIndex = nodeIndex; 

} 

public int getLeafNum() { 
return leafNum; 

} 

public void setLeafNum(int leafNum) { 
this. leafNum = leafNum; 


} 

public double getAlpha() { 
return alpha; 

} 

public void setAlpha(double alpha) { 
this.alpha = alpha; 

} 

public String getParentAttrValue() { 
return parentAttrValue; 

} 

public void setParentAttrValue(String parentAttrValue) { 
this. parentAttrValue = parentAttrValue; 


} 

public TreeNode[ ] getChildAttrNode() { 
return childAttrNode; 

} 


public void setChildAttrNode(TreeNode[] childAttrNode) { 
this.childAttrNode - childAttrNode; 

} 

public ArrayList < String > getDataIndex() { 
return dataIndex; 


) 
public void setDataIndex(ArrayList < String> dataIndex) { 


this.dataIndex = dataIndex; 
i 
程序 运行 结果 如 图 7-9 所 示 。 


下 面 是 随机 森林 中 的 决策 树 : 
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--!-- [i:CreditRatingl 
Excellent-- 【2 类别 :No[1,] 
--!Excellent-- [3:Student ] 
--No-- [41 t9: Yes[3, 4, 5, ] 
--!No-- E51 类 别 :Yesr2，] 





决策 树 2 


--!--【1:CredicRacing] 
--Fair-- [2:Age] 
--Youth-- [41284:No[4, ] 
—!Youtn-- [51 2:9f:Yes[1, 5, ] 
--!Fair-- [318H:No[2, 3, ] 
XB Rit BliEAge- Youth, Income-Low, Student-No, CreditRating-Fair, MMBIDAERA BuysCompute:Yes 











图 7-9 随机 森林 程序 运行 结果 


当 测 试 的 数据 是 Age= Youth, Income= Low, Student= No, careditRating= Fair 时 ,从 
运行 结果 得 到 两 个 决策 树 ,两 个 决策 树 对 每 个 属性 值 都 作出 了 准确 的 预测 ; 最 后 给 出 的 预 
测 结果 是 Yes, 也 就 是 会 买 电脑 。 
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7.4 基于 阿里 云 数 加 平台 的 随机 森林 分 类 实例 


随机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 ,并 且 其 输出 的 类 别 是 由 单 棵 树 输 出 的 类 别 
的 众 数 而 定 , 其 操作 思路 与 逻辑 回归 分 类 算法 一 
致 。 这 里 使 用 第 5 章 中 的 数据 来 操作 随机 森林 
算法 ,其 流程 图 如 图 7-10 所 示 , 其 中 左 侧 数据 为 
带 有 标签 的 训练 集 , 右 侧 为 不 带 标签 的 预测 集 。 

随机 森林 的 字段 信息 与 参数 设置 如 图 7-11 




















所 示 , 其 中 ,字段 设置 前 三 项 在 第 6 章 已 有 解释 ， 
这 里 没有 权重 列 。 故 权重 列 列 名 可 不 填写 ,标签 
列 选择 的 是 “label” 列 。 参 数 设 置 中 需要 注意 的 
是 , 单 棵 树 的 算法 在 随机 森林 中 的 位 置 ,如 果 有 ， 
则 长 度 为 2。 例 如 有 nn 棵 树 ,algorithmTypes 二 [a,b], 则 [0,a) 是 id3, [a,b) 是 cart,[b,n) 
是 c4.5。 例 如 ,在 一 个 拥有 5 棵 树 的 森林 中 ,[2, 4] 表 示 0.1 为 id3 算法 ,2、3 X cart 算法 ,4 
为 c4.5 算法 。 如 果 输 入 为 None, 则 算法 在 森林 中 均 分 ; 单 棵 树 随机 特征 数 为 单 棵 树 在 生 
成 时 ,每 次 分 列 时 选择 的 随机 的 特征 个 数 。 
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图 7-10 操作 流程 图 
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(b) 


图 7-11 随机 森林 字段 设置 与 参数 设置 图 


预测 的 实验 结果 如 图 7-12 所 示 , 与 KNN 算法 得 到 的 预测 结果 一 致 。 


生成 的 模型 如 图 7-13 所 示 。 单 击 左 侧 菜单 栏 模型 1 随机 森林 , 右 击 查看 模型 。 


"prediction resulta — predicion score | predidion detalla. 


bad 058 "bad": 0.58, "good": 0.42} 
bad 0.9033333333333... | {"bad": 0.9033333333333334, "good: 0.09666666666665666] 
bad 09775 | frbadr 0.9775, "good". 0.0225} 

good 0728333333333. { "bad 0.2716666666666667, “good” 0 7283333333333334) 


图 7-12 预测 组 件 的 实验 结果 
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7.8 Wi 结 
机 器 学 习 中 ,随机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 , 并 且 其 输出 的 类 别 是 由 个 别 
树 输出 的 类 别 的 众 数 而 定 。 随 机 森林 算法 有 很 多 优点 ,如 分 类 精度 高 ,对 不 平衡 的 分 类 资料 
可 以 平衡 误差 .学 习 过 程 快 .不 会 产生 过 拟 合 问题 等 。 
思 gi 
1. 简介 随机 森林 算法 的 原理 。 


2. 阑 述 随 机 森林 算法 的 特点 。 
3. 基于 阿里 云 数 加 平台 进行 随机 森林 算法 应 用 操作 。 
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第 8 章 支持 向 量 机 





8.1 基本 概念 


8.1.1 支持 向 量 机 理论 基础 


在 统计 学 习 理 论 基 础 之 上 发 展 起 来 的 支持 向 量 机 (Support Vector Machine, SVM) $ 
法 ,是 一 种 专门 研究 有 限 样本 预测 的 学 习 方法 。 与 传统 统计 学 相 比 ,SVM 算法 没有 以 传统 
的 经 验 风 险 最 小 化 原则 作为 基础 ,而 是 建立 在 结构 风险 最 小 化 原理 基础 之 上 ,发 展 成 为 一 种 
新 型 的 结构 化 学 习 方 法 。 统 计 学 习 理 论 是 支持 向 量 机 理论 发 展 的 基础 ,为 了 进一步 深入 研 
$t SVM ,需要 对 统计 学 习 的 核心 理论 进行 深入 理解 。 


8.1.2 统计 学 习 核 心理 论 


统计 学 习 理论 被 认为 是 目前 针对 小 样本 统计 估计 和 预测 学 习 的 最 佳 理论 , 它 从 理论 上 
较 系 统 地 研究 了 经 验 风险 最 小 化 原则 成 立 的 条 件 , 有 限 样本 下 经 验 风险 与 期 望 风险 的 关系 ， 
及 如 何 利 用 这 些 理 论 找到 新 的 学 习 原 则 。 一 般 来 说 ,经 验 风险 最 小 并 不 一 定 意味 着 期 望 风 
险 最 小 。 学 习 的 复杂 性 不 但 与 学 习 目标 有 关 , 而 且 还 要 考虑 样本 集 的 有 限 性 ,这 就 是 有 限 样 
本 下 学 习 机 器 的 复杂 性 和 泛 化 能 力 之 间 的 矛盾 。 因 此 ,需要 一 种 新 的 学 习 原 则 来 代替 传统 
的 经 验 风 险 最 小 化 原则 , 它 能 够 指导 我 们 在 有 限 样本 或 小 样本 情况 下 获得 具有 优异 泛 化 能 
力 的 学 习 机 器 。 结 构 风 险 最 小 归纳 原理 的 出 现 一 举 解决 了 这 个 难题 , 它 包 括 了 学 习 的 一 致 
性 ,边界 的 理论 和 结构 风险 最 小 化 原理 等 部 分 , 它 所 提出 的 结构 风险 最 小 化 归纳 学 习 过 程 克 
服 了 经 验 风 险 最 小 化 的 缺点 ,获得 了 更 好 的 学 习 效 果 。 


8.1.3 学 习 过 程 的 一 致 性 条 件 


学 习 过 程 的 一 致 性 条 件 是 统计 学 习 理 论 的 基础 ,也 是 与 传统 渐 近 统计 学 的 基本 联系 所 
在 。 所 谓 学 习 过 程 的 一 致 性 (consistency) ,就 是 指 当 训练 样本 数目 趋 于 无 穷 大 时 ,经 验 风险 
的 最 优 值 能 够 收敛 到 真实 风险 的 最 优 值 。 只 有 满足 学 习 过 程 一 致 性 条 件 , 才 能 保证 在 学 习 
样本 无 穷 大 时 ,经 验 风险 最 小 化 原则 下 得 到 的 最 优 学 习 机 器 的 性 能 趋 近 于 期 望 风险 最 小 时 
的 最 优 结果 ,只 有 满足 一 致 性 条 件 , 才 能 说 明 学 习 方 法 是 有 效 的 。 经 验 风险 和 期 望 风险 之 间 
的 这 种 关系 可 以 用 图 8-1 表述 ,其 中 R(a) 为 实际 可 能 的 最 小 风险 。 

定义 8.1: 一 致 性 : Cri yi «Gra ,yz),…,(ZXisyi) 是 按照 概率 分 布 F(z,y) 得 到 的 独立 
同 分 布 的 观测 样本 集合 , f(z,a) 是 函数 集 厂 中 使 得 经 验 风 险 RRowo la) 最 小 化 的 预测 函数 。 


期 望 风险 


Bx 





R(a) 


经 验 风 险 


图 8-1 经 验 风 险 和 期 望 风险 关系 示意 图 





若 对 任意 的 se 盖 0, 有 

limP( RGi) — infyerR G0) > €) = 0 (8-1) 
limP{ (Resp (ax) — infyerR(a)) > €) = 0 (8-2) 
则 称 经 验 风险 最 小 化 原则 对 于 函数 集 芽 和 概率 分 布 F(z,y) 是 一 致 的 。 换 言 之 ,如 果 经 验 
风险 最 小 化 是 一 致 的 ,那么 它 必 须 提 供 一 个 函数 序列 fC vr) ,1 三 1,2,… ,使 得 期 望 风 险 和 

经 验 风险 收敛 到 一 个 可 能 的 最 小 风险 值 。 
定理 8.1: 设 存在 常数 A M BAER FERR F={J(Czsa)lcEA} 的 所 有 函数 和 给 定 

的 概率 分 布 F(x,y) 有 下 列 不 等 式 成 立 : 
Ax [reo fæ dF.) <B, a€A (8-3) 


则 经 验 风 险 最 小 化 原则 一 致 性 的 充分 必要 条 件 是 : 经 验 风险 Reno Coi) (E SE Ae ER CHE PE. 
致 单 边 收敛 到 期 望 风 险 R(a) , 即 
limP{sup(R(a) — Res(2) >e) =0, fET,Ve>0 (8-4) 


LO) 是 损失 函数 ,定理 S. 1 是 Vapnik 和 Chervonenkis 于 1989 年 提出 的 ,在 统计 学 习 理 
论 中 具有 非常 重要 的 地 位 ,因此 称 为 学 习 理论 的 关键 定理 。 它 把 学 习 一 致 性 的 问题 转化 为 
一 致 收敛 问题 ,解释 了 经 验 风险 最 小 化 原则 在 什么 条 件 下 可 以 保证 是 一 致 的 ,但 它 并 没有 给 
出 什么 样 的 函数 集 才能 够 满足 这 些 条 件 ,也 没有 说 明 如 何 对 事件 sup(R(a) 一 Ramp Car) ) >e 
了 ET 出现 的 概率 进行 估计 。 为 此 统计 学 习 理 论 定义 了 一 些 指标 来 衡量 函数 集 的 性 能 ,其 中 
最 重要 的 是 函数 集 的 VC HE. 


8.1.4 函数 集 的 VC 维 


VC 维 是 统计 学 习 理 论 中 的 一 个 核心 概念 , 它 是 目前 为 止 描述 函数 集 学 习性 能 的 最 好 
指标 ,并 且 在 计算 函数 集 与 分 布 无 关 的 泛 化 能 力 界 中 起 着 重要 作用 。 指 示 函 数 集 的 VC 维 
的 直观 定义 是 : 对 于 一 个 指示 函数 集 , 如 果 存 在 六 个 样本 能 够 被 函数 集 里 的 函数 按照 所 有 
可 能 的 2^ 种 组 合 分 成 两 类 , 则 称 函 数 集 能 够 把 样本 数 为 /的 样本 集 打 散 (Cshattering)。 函 
数 集 的 VC 维 就 是 它 能 打 散 的 最 大 样本 数目 h。 若 对 任意 数目 的 样本 ,函数 集 下 都 有 函数 
能 将 它们 打 散 , 则 称 函数 集 的 VC 维 是 无 穷 大 的 .如 图 8-2 所 示 。 
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图 8-2 打 散 3 个 样本 


可 以 看 出 ,VC 维 实质 上 反映 了 函数 集 的 学 习 能 力 。 一 般 而 言 ,VC 维 越 大 , 则 学 习 机 器 
越 复杂 ,学 习 容量 也 就 越 大 。 令 人 遗憾 的 是 ,目前 尚 没有 通用 的 关于 如 何 计算 任意 函数 集 的 
VC 维 的 方法 ,只 有 一 些 特殊 的 函数 集 的 VC 维 可 以 准确 地 知道 。 例 如 ,n 维 空间 中 的 任意 
线性 函数 集 的 VC ERE 2 十 1。 而 对 于 一 些 比较 复杂 的 学 习 机 器 (如 神经 网 络 ) ,其 VC 维 除 
了 与 函数 集 选择 有 关外 ,通常 也 受 学 习 算法 等 因素 的 影响 ,确定 起 来 将 更 加 困难 。 实 际 应 用 
中 ,通常 采用 精妙 的 数学 技巧 避免 直接 求解 VC 维 。 


8.1.5 泛 化 误差 界 


统计 学 习 理 论 从 VC 维 的 概念 出 发 ,推导 出 关于 经 验 风 险 和 期 望 风 险 之 间 关 系 的 重要 

结论 , 称 作 泛 化 误差 界 ,这 些 界 是 分 析 学 习 机 器 性 能 和 发 展 新 的 学 习 算法 的 重要 基础 。 统 计 

学 习 理论 中 给 出 了 如 下 估计 真实 风险 的 不 等 式 : 对 于 任意 aET, (TT 是 抽象 参数 集合 ),， 以 
至 少 1 一 7 的 概率 满足 下 列 不 等 式 : 

R(a) < Ralo) + 6h/1) (8-5) 

QUUM LP earn 








其 中 ,yh/D) Ral ORRERA. OLD BICI EL GA eL 


代表 样本 个 数 ,参数 有 则 为 一 个 函数 集合 的 VC 维 。 上 述 不 等 式 说 明了 学 习 机 器 的 期 望 风 
险 是 由 两 部 分 组 成 的 ; 第 一 部 分 是 经 验 风 险 (学 习 误 差 引 起 的 损失 ) ,依赖 于 预测 函数 的 选 
择 ; 另 一 部 分 称 为 置信 范围 ,是 关于 函数 集 VC 维 h 的 增 函数 。 显 然 , 如 果 1/h 较 大 ,期 望 风 
险 值 由 经 验 风 险 值 决 定 , 此 时 为 了 最 小 化 期 望 风险 ,只 需要 最 小 化 经 验 风险 ; 相反 ,如 果 L/h 
较 小 ,经 验 风险 最 小 并 不 能 保证 期 望 风险 一 定 最 小 ,此 时 必须 同时 考虑 不 等 式 (8-5) 右 端的 
两 项 之 和 , 称 之 为 结构 风险 。 


8.1.6 结构 风险 最 小 化 归纳 原理 


结构 风险 最 小 化 归纳 原理 的 基本 思想 是 : 如 果 要 求 风险 最 小 ,就 需要 不 等 式 (8-5) 中 右 
端的 两 项 相互 权衡 ,共同 趋 于 最 小 。 另 外 ,在 获得 学 习 模型 经 验 风险 最 小 的 同时 ,希望 学 习 
模型 的 推广 能 力 尽 可 能 大 ,这 样 就 需要 户 值 尽 可 能 小 , 即 置信 风险 尽 可 能 小 。 根 据 风险 估 计 
不 等 式 , 如 果 固定 训练 样本 数目 ! 的 大 小 , 则 控制 风险 R(a) 的 参数 有 两 个 : Ras (GO Ah. E 
中 经 验 风险 Re。(a) 依 赖 于 学 习 机 器 所 选 定 的 函数 f Ca a ,所 以 可 以 通过 控制 来 控制 经 
验 风 险 。VC 维 刀 依赖 于 学 习 机 器 所 工作 的 函数 集合 。 为 了 获得 对 玉 的 控制 ,可 以 将 函数 
集合 结构 化 ,建立 有 与 各 函数 子 结构 之 间 的 关系 ,通过 控制 对 函数 结构 的 选择 来 达到 控制 








VC 维 久 的 目的 。 具体 地 ,运用 以 下 方法 将 函数 集合 {f(x,o)1oET} 结 构 化 。 考 虑 函数 的 肉 
套子 集 决定 的 函数 集合 , 即 S1CS2…CSi…CS,, 其 中 S={ fro) |o€ Te} HAA S* = 
Us, 结构 S 中 的 任何 元 素 S. 拥有 一 个 有 限 的 VC BE ha Bh Shahn WR HE 
SHEE Cri «yi «Gra sys ett Cars yi) ,结构 风险 最 小 化 原理 就 是 在 函数 子 集 S 中 选择 一 
个 函数 f Cot ,zx) 最 小 化 经 验 风险 (通常 它 随 着 子 集 的 复杂 度 的 增加 而 减 小 ), 同 时 Si 确保 置 
信和 风险 是 最 小 的 。 选 择 最 小 经 验 风险 与 置信 风险 之 和 最 小 的 子 集 就 可 以 达到 期 望 风险 最 
小 ,这 个 子 集 中 使 经 验 风险 最 小 的 函数 就 是 要 求 的 最 优 函 数 ,这 种 思想 称 为 结构 风险 最 小 
化 。 根 据 以 上 的 分 析 , 可 以 得 到 两 种 运用 结构 风险 最 小 化 归纳 原理 构造 学 习 机 器 的 思路 。 

CD 给 定 一 个 函数 集合 ,按照 上 述 方法 组 织 一 个 嵌 套 的 函数 结构 ,在 每 个 子 集中 求 取 最 
小 经 验 风险 ,然后 选择 经 验 风 险 与 置信 风险 之 和 最 小 的 子 集 。 但 是 , 当 子 集 数 目 较 大 时 ,该 
方法 较为 费时 ,甚至 不 可 行 。 

(2) 构造 函数 集合 的 某 种 结构 ,使 得 在 其 中 的 各 函数 子 集 均 可 以 取得 最 小 的 经 验 风险 
(例如 ,使 训练 误差 为 0) ,然后 选择 适当 的 子 集 使 得 置信 风险 最 小 ,此 时 相应 的 函数 子 集中 
使 得 经 验 风 险 最 小 的 函数 就 是 所 求解 的 最 优 函数 。 支 持 向 量 机 就 是 这 种 思想 的 具体 体现 。 


8.2 支持 向 量 机 原理 


8.2.1 支持 向 量 机 核心 理论 


支持 向 量 机 (Support Vector Machine. SVM) 是 在 统计 学 习 理 论 的 VC 维 理论 和 结构 
风险 最 小 原理 的 基础 上 发 展 起 来 的 一 种 新 的 机 器 学 习 方法 。 它 根据 有 限 的 样本 信息 在 模型 
的 复杂 性 ( 即 对 特定 训练 样本 的 学 习 精度 ) 和 学 习 能 力 ( 即 无 错误 地 识别 任意 样本 的 能 力 ) 之 
间 寻 求 最 佳 折 中 ,以 期 获得 最 好 的 推广 能 力 。 目 前 SVM 初步 表现 出 很 多 优 于 已 有 方法 的 
性 能 ,一 些 学 者 认为 ,SVM 正在 成 为 继 神经 网 络 之 后 新 的 研究 热点 ,并 将 推动 机 器 学 习 理论 
和 技术 的 重大 发 展 。 


8.2.2 最 大 间隔 分 类 超 平面 


支持 向 量 机 最 初 是 针对 线性 可 分 情况 下 的 二 类 模式 分 类 问题 而 提出 的 。 给 定 观 测 样本 
f£ S$={(ziyyi), (zy),)CXX{ 一 1.1}) ,其 中 Hi 
XCR" 称 为 输入 空间 或 输入 特征 空间 , y; € {一 1， 
1} 是 样本 的 类 标记 。 分 类 的 目的 就 是 找 一 个 分 类 Ih 
超 平面 ,将 正 负 两 类 完全 分 开 . 如 图 8-3 所 示 。 

设 G={w。* zr 二 b==0|wER", EX,bER} 
是 所 有 能 够 对 S 完全 正确 分 类 (经 验 风险 为 0) 的 





超 平面 的 集合 。 其 中 “。” 是 内 积 运算 符 。“ 完 全 正 . margin=2/|wl) 
确 分 类 ”的 意义 是 : 任意 一 个 法 向 量 w( 不 失 一 般 " 

TE. 4 || w || =D MHA b 所 确定 分 类 超 平面 HH， 图 8-3 ”线性 可 分 的 分 类 超 平面 

它 对 样本 集 S 的 分 类 结果 为 
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wezxikbz0. 4y=+1 (8-6) 
weaitb<0, 车 y= 一 1 (8-7) 
在 所 有 的 超 平面 中 ,最 大 间隔 分 类 器 要 寻找 的 是 一 个 最 优 超 平面 (optimal hyperplane)。 
这 个 最 优 超 平面 是 指 满足 两 类 的 分 类 间隔 (Margin) 最 大 的 超 平面 ,其 中 分 类 间隔 被 定义 
为 : 每 类 距离 超 平面 最 近 的 样本 到 超 平面 的 距离 之 和 。 
此 分 类 间隔 可 以 经 过 如 下 的 计算 得 到 : VLEDEgE Hi yews H= 为 最 优 超 平面 ， 
在 态 两 侧 分 别 作 一 个 经 过 距离 态 最 近 的 样本 并 且 平 行 与 也 的 超 平面 , 记 为 Hi FI He, 3X 
两 个 超 平面 的 表达 式 分 别 为 
Hı: y=wexzx+b=1, Hr: y=wertd=—l1 (8-8) 
显然 , 超 平面 A: y—£w "zz 十 0 一 0 RAT G. RAVER t] H 和 He 之 间 的 距离 称 
为 H f" 2: 2818] E. A”, 并 将 Hi 和 H: 称 为 H 的 “间隔 超 平面 "或 者 “间隔 边界 ”。 容 易 计算 
asgi t ta. 
所 谓 的 “最 大 间隔 分 类 超 平面 ?就 是 在 正确 分 类 所 有 学 习 样 本 ( 即 满足 约束 条 件 yi Cw * 
zi) Z1 的 前 提 下 ) ,使 得 分 类 间隔 A 取 最 大 值 的 超 平面 ,例如 ,图 8-3 中 所 示 的 平面 H 


8.2.3 支持 向 量 机 

1. 数据 线性 可 分 的 情况 

为 了 求解 线性 可 分 情况 下 的 最 大 间隔 超 平面 ,需要 在 满足 约束 : yw e H>, i= 
1,…,n, 的 前 提 下 最 大 化 间隔 A, 等 价 于 如 下 的 优化 问题 : 














min + Iwll? (8-9) 
ARR ylw * zi 十 6] 宇 1,i=1,…,n。 
这 是 一 个 典型 的 线性 约束 凸 二 次 规划 问题 , 它 唯 一 确定 了 最 大 间隔 分 类 超 平面 。 引 入 
Pi BI ELSE T. a; 三 0,i 二 1,…,n, 根 据 目标 函数 及 其 约束 条 件 建立 Lagrange 函数 。 
LG ea i || w |? — Daw- x +b) —1) (8-10) 


将 Lagrange 函数 求 关于 wb 的 极 小 值 , 即 由 极 值 条 件 WwL(ze,o,a) 一 0 和 VeLCroyp,a) 一 0 
得 到 如 下 算式 


S ah =0; w= Dav: (8-11) 
将 上 式 代 入 Lagrange AM LCW ba) ,可 整理 得 
L= Da-i) Deanery (8-12) 
考虑 Wolf 对 偶 性 质 , 即 可 得 到 优化 问题 的 对 偶 问 题 
max~ >) Season ane) + Ye (8-13) 
si Yeo. =0 


可 见 对 偶 问 题 仍然 是 线性 约束 的 凸 二 次 优化 ,存在 唯一 的 最 优 解 w” 。 

根据 约束 优化 问题 的 KKT CKarush-Kuhn-Tucker) & fF - 46 E LAE a^ 时 ,应 满足 如 
下 条 件 

or (yi(w” sai tb" )—-1)=0, il. (8-14) 

由 于 只 有 少 部 分 观测 样本 zi 满足 yi Cu + ai +b" )=1, E IDEE Lagrange RF ač > 
0 ,而 剩余 的 样本 满足 a =O, RIRA a DA ATE PE”. 

通常 把 or —0 的 观测 样本 称 为 支持 向 量 (support vector) ,它们 位 于 间隔 边界 A 或 
H: 上 。 结 合式 (8-11) 和 式 (8-14) 可 知 ,w” 和 4b” 均 由 支持 向 量 决定 。 因 此 ,最 大 间隔 超 平 
H w e tb’ —0 完全 由 支持 向 量 决定 ,而 与 剩余 的 观测 样本 无 关 。 

这 时 就 可 以 得 到 如 下 的 最 优 决 策 函 数 或 者 分 类 器 。 


flr) = sgn(w* «x+6") = sent Dayilz + 2) +o") (8-15) 
i=l 


Vapnik 把 上 式 称 为 线性 硬 间隔 支持 向 量 机 ”, 当 样本 线性 不 可 分 时 ,由 于 不 存在 使 得 
分 类 间隔 A 取 正 值 的 超 平面 ,严格 要 求 所 有 样本 被 正确 分 类 的 “ 硬 间 隔 ? 方 法 是 行 不 通 的 。 
换 名 话说 ,必须 适当 松弛 式 (8-6) 和 式 (8-7) 中 的 约束 条 件 。 通 过 引入 松弛 变量 Oi oe 
n, 可 以 得 到 “软化 ”的 新 约束 条 件 。 

Mrzi 十 0 过 1 一 8) (8-16) 
显然 当 G 充分 大 时 ,样本 (zi,yi) 总 可 以 满足 上 述 约束 条 件 ,如 图 8-4 所 示 。 























图 8-4 引入 松弛 因子 的 SVM 两 分 类 情形 


但 另 一 方面 ,和 项 c 与 样本 的 分 类 错误 相关 并 且 体 现 了 经 验 风险 ,必须 限制 它 的 大 
ici 
小 。 因 此 ,我 们 得 到 "软化 ”后 的 最 大 间隔 分 类 器 的 优化 问题 。 





min l|w|*- ct (8-17) 
wit 2 = 


riwe a+b) zml1—t (8-18) 
其 中 , 实 常数 C20 称 为 罚 参数 , 它 在 分 类 器 的 复杂 度 和 经 验 风 险 之 间 进 行 权衡 。 把 上 
述 问题 确定 的 学 习 机 称 为 "线性 软 间隔 支持 向 量 机 ”。 
2. 数据 线性 不 可 分 的 情况 
经 典 非 线性 方法 ,如 神经 网 络 模型 中 ,解决 线性 不 可 分 类 问题 的 一 个 方法 是 利用 多 层 感 
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知 器 ,其 实质 就 是 将 近似 函数 集 由 简单 线性 指示 函数 扩展 成 由 许多 线性 指示 函数 释 加 成 的 
一 个 更 为 复杂 的 近似 函数 集 ,再 用 S 型 函数 ?来 近似 指示 函数 中 的 单位 阶 跃 函数 (或 符号 函 
数 ), 从 而 得 到 使 经 验 风险 极 小 化 的 一 种 容易 操作 的 算法 。 但 是 ,这 种 方法 存在 着 容易 陷入 
局 部 极 小 点 ,网 络 结构 设计 依赖 于 先 验 知识 以 及 泛 化 能 力 较 差 等 问题 。 解 决 线性 不 可 分 类 
问题 的 另外 一 个 途径 (支持 向 量 机 算法 ) 是 用 “ 超 曲 面 * 代 替 “ 超 平面 ”, 找 一 个 能 够 正确 分 类 
所 有 观测 样本 的 “最 大 间隔 超 曲 面 ”, 如 图 8-5 所 示 。 





图 8-5 SVM 线性 不 可 分 情形 


但 是 “最 大 间隔 超 曲 面 "是 难以 描述 和 直接 求解 的 。 通 过 引入 由 输入 空间 X 到 某 个 高 
HERE H C— AR FE Hibert " [8 HIERE S $ (2) — X— H BE 8548. X 中 的 寻找 非 线性 的 
“最 大 超 曲面 "问题 转化 为 在 高 维 空间 H 中 求解 线性 的 “最 大 间隔 超 平面 ?的 问题 ,从 而 更 容 
易 给 出 具体 的 模型 进行 求解 。 

其 间 需 要 避免 在 H 中 进行 高 维 的 内 积 运算 %(zi)。%(Cy)。 如 果 存 在 输入 空间 中 定义 
的 某 个 核 函 数 氏 Cz，zi), 且 满足 KCzz) 一 gzi)。%Cw) ,就 可 以 通过 计算 K(x, x;) 的 值 
而 避免 H 中 的 内 积 运 算 , 并 且 不 需要 知道 映射 函数 。 
因此 ,综合 前 面 两 种 处 理 线性 不 可 分 类 问题 的 思想 ,我 们 得 到 更 常用 的 “ 非 线性 软 间隔 
支持 向 量 机 ”, 简 称 " 支 持 向 量 机 ”, 它 的 原始 优化 问题 (P) 和 对 偶 优化 问题 CD) 分 别 如 下 。 





原始 优化 问题 (P): 
min + | wl? C916 (8-19) 
wt 2 = 
st yilwe dz) +b) >1-b. G50, iln 
对 偶 优 化 问题 CD) : 
max >Ja: — 1-2] X aajyy;K Gri ax? (8-20) 
dcl ici j=1 


S Daw: 一 0， CzcaimO. iP—l.en 
i=l 


求解 对 偶 问 题 的 最 优 解 a 后 ,支持 向 量 机 的 决策 函数 为 : 


f(x) = sgn(w* + $6) 十 0 ) 一 sen| Sai yik Gr.) +o") (8-21) 
ici 


© S 型 函数 (sigmoid function) 2 BP 神经 网 络 中 常用 的 非 线 性 激活 函数 。 


同样 ,根据 KKT 条 件 , 优 化 对 偶 优 化 问题 (D) 取 最 优 解 时 应 该 满足 如 下 条 件 : 
ar [y;Ge * $x) $67) -14+ 0] =0, P dern (8-22) 
(C—ai)t =0 (8-23) 
结合 式 (8-20) 的 约束 条 件 和 式 (8-22) 、 式 (8-23) ,可 以 推导 出 如 下 重要 结论 : 
COD Fa? = 二 0, 则 用 二 0, 且 对 应 的 样本 xi 一 定 不 是 支持 向 量 。 
(2) 4$ 0—a? <C WA gé =0 和 yi(w*”。$(zi) 十 b*) 二 1, 且 对 应 的 样本 称 为 “ 非 边 界 
支持 向 量 机 ”。 
(D Hai =C WA t^ =0 M yw e pD Hb ) 二 1, 且 对 应 的 样本 称 为 “边界 支持 向 
Ru". 
RE JL. Jc OE APR GE] o URS ELT TERR EI PEW XE o SE FF IRI CDL UT Ue S ER SE AE wz AO 的 支持 
向 量 决 定 。 


8.2.4 核 函 数 分 类 


对 支持 向 量 机 而 言 , 核 函数 的 构造 和 选择 尤其 重要 。 在 满足 Mercer 条 件 的 情况 下 , 核 
函数 可 以 有 多 种 形式 供 选 择 。 目 前 ,在 SVM 理论 研究 与 实际 应 用 中 ,最 常 使 用 的 有 以 下 四 
类 核 函 数 。 

1. 线性 核 函数 

KG.xi)-—r*zi 
2. 多 项 式 核 函数 
KG.) =([(r.2i) +1)", q 是 自然 数 
此 时 得 到 的 支持 向 量 机 是 一 个 g 阶 多 项 式 分 类 器 。 
3. Gauss 径 向 基 核 函数 


K(xrx,zxi) = exp(57 l| x — z | +), o>0 


得 到 的 支持 向 量 机 是 一 种 径 向 基 函 数 分 类 器 。 
4. Sigmoid E i Zt 
K(Cz,zi) = tanh(aGxsz;)) +t), at 是 常数 

tanh 是 Sigmoid 函数 。 

支持 向 量 机 实现 的 其 实 是 一 个 两 层 的 感知 器 神经 网 络 ( 故 又 称 为 “神经 网 络 核 函数 ”)， 
它 包含 了 一 个 隐 层 , 隐 层 结 点 数 是 由 算法 自动 确定 的 ,而 且 算法 不 存在 困扰 神经 网 络 的 局 部 
极 小 点 的 问题 。 

其 他 形式 的 核 函 数 ,例如 传 里 叶 级 数 核 函 数 . 小 波 核 函 数 等 也 都 是 特定 于 有 具体 应 用 而 产 
生 的 优化 算 子 ,应 用 也 较为 广泛 。 不 同 的 核 函 数 所 产生 的 性 能 是 不 同 的 。 对 于 某 一 具体 问 
题 , 如 何 选择 核 函数 的 形式 还 没有 一 个 指导 原则 。 即 使 已 经 选 定 了 某 一 类 核 函数 ,其 相应 的 
参数 (如 多 项 式 核 函数 的 阶 次 g\ 径 向 基 核 函数 核 半径 co 等) 也 需要 选择 和 优化 。Keerthi 证 
明 , 径 向 基 核 函数 在 适当 选择 参数 时 可 以 代 蔡 多 项 式 核 , 而 且 径 向 基 核 函数 可 以 将 样本 映射 
到 一 个 更 高 维 的 空间 ,可 以 处 理 当 类 标签 (class labels) 和 特征 之 间 的 关系 是 非 线 性 时 的 样 
例 。 另 外 ,由 于 参数 的 个 数 直接 影响 到 模型 选择 的 复杂 性 ,而 径 向 基 核 函数 只 有 一 个 待定 参数 
c* 与 别 的 核 函数 相 比 具有 参数 少 的 优点 ,一 般 情 况 下 选用 径 向 基 核 函数 的 效果 不 会 太 差 。 
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8.3 支持 向 量 机 的 特点 及 应 用 


8.3.1 文 持 向 量 机 的 特点 


SVM 有 如 下 主要 优点 。 

(D 非 线 性 映射 是 SVM 方法 的 理论 基础 ,SVM 利用 内 积 核 函 数 代 替 向 高 维 空间 的 非 
线性 映射 。 

(2) 对 特征 空间 划分 的 最 优 超 平面 是 SVM 的 目标 ,最 大 化 分 类 边际 的 思想 是 SVM 方 
法 的 核心 。 

(3) 支持 向 量 是 SVM 的 训练 结果 ,在 SVM 分 类 决策 中 起 决定 作用 的 是 支持 向 量 。 

(4) SVM 是 一 种 有 坚实 理论 基础 的 .新 颖 的 小 样本 学 习 方 法 。 它 基本 上 不 涉及 概率 测 
度 及 大 数 定律 等 ,因此 不 同 于 现 有 的 统计 方法 。 从 本 质 上 看 , 它 避 开 了 从 归纳 到 演绎 的 传统 
过 程 ,实现 了 高 效 的 从 训练 样本 到 预报 样本 的 “ 转 导 推 理 ”, 大 大 地 简化 了 通常 的 分 类 和 回归 
等 问题 。 

(5) SVM 的 最 终 决 策 函 数 只 由 少数 的 支持 向 量 所 确定 ,计算 的 复杂 性 取决 于 支持 向 量 
的 数目 ,而 不 是 样本 空间 的 维 数 ,这 在 某 种 意义 上 避免 了 “ 维 数 灾难 ”。 

(6) 少数 支持 向 量 决 定 了 最 终结 果 , 这 不 但 可 以 帮助 人 们 抓 住 关键 样本 “剔除 "大量 元 
REER ,而且 注定 了 该 方法 不 但 算法 简单 ,而且 具有 较 好 的 “ 鲁 棒 ” 性 。 这 种 “ 鲁 棒 ” 性 主要 体 
现 如 下 。 

CD 增 、 删 非 支 持 向 量 样本 对 模型 没有 影响 。 

O 支持 向 量 样 本 集 具有 一 定 的 鲁 棒 性 。 

@ 有 些 成 功 的 应 用 中 ,SVM 方法 对 核 的 选取 不 敏感 。 

SVM 的 两 个 不 足 如 下 。 

CD SVM 算法 对 大 规模 训练 样本 难以 实施 。 由 于 SVM 是 借助 二 次 规划 来 求解 支持 向 
量 , 而 求解 二 次 规划 将 涉及 m Br B PEG TEE On. 为 样本 的 个 数 ), 当 m 数目 很 大 时 ,该 矩阵 的 
存储 和 计算 将 耗费 大 量 的 机 器 内 存 和 运算 时 间 。 针 对 以 上 问题 的 主要 改进 有 J Platt 的 
SMO 算法 、T. Joachims 的 SVM、C. J. C. Burges 等 的 PCGC 、 张 学 工 的 CSVM 以 及 
O. L. Mangasarian 等 的 SOR 算法 。 

(2) 用 SVM 解决 多 分 类 问题 存在 困难 。 经 典 的 支持 向 量 机 算法 只 给 出 了 二 类 分 类 的 
算法 ,而 在 数据 挖掘 的 实际 应 用 中 ,一 般 要 解决 多 类 的 分 类 问题 。 可 以 通过 多 个 二 类 支持 向 
量 机 的 组 合 来 解决 。 主 要 有 一 对 多 组 合 模式 .一 对 一 组 合 模式 和 SVM 决策 树 ; 再 就 是 通过 
构造 多 个 分 类 器 的 组 合 来 解决 。 主 要 原理 是 克服 SVM 固有 的 缺点 ,结合 其 他 算法 的 优势 ， 
解决 多 类 问题 的 分 类 精度 。 如 与 粗 集 理论 结合 ,形成 一 种 优势 互补 的 多 类 问题 的 组 合 分 
类 器 。 

8.3.2 文 持 向 量 机 的 应 用 


SVM 方法 在 理论 上 具有 突出 的 优势 ,贝尔 实验 室 率先 对 美国 邮政 手写 数字 库 识别 研究 
方面 应 用 了 SVM 方法 ,取得 了 较 大 的 成 功 。 在 随后 的 几 年 内 ,有 关 SVM 的 应 用 研究 得 到 




















了 很 多 领域 的 学 者 的 重视 ,在 人 脸 检测 、 验 证 和 识别 .说 话 人 /语音 识别 文字/ 手写体 识 别 、 
图 像 处 理 、 及 其 他 应 用 研究 等 方面 取得 了 大 量 的 研究 成 果 , 从 最 初 的 简单 模式 输入 的 直接 的 
SVM 方法 研究 ,进入 到 多 种 方法 取长补短 的 联合 应 用 研究 ,对 SVM 方法 也 有 了 很 多 改进 。 

1. 车 辆 行人 检测 

由 于 人 体 是 一 个 非 刚性 的 目标 ,并 在 尺寸 ,形状 .颜色 和 纹理 机 构 上 有 一 定 程度 的 可 变 
性 。 行 人 检测 主要 是 基于 小 波 模板 概念 ,按照 图 像 中 小 波 相 关系 数 子 集 定 义 目标 形状 的 小 
波 模板 。 

系统 首先 对 图 像 中 每 个 特定 大 小 的 窗口 以 及 该 窗口 进行 一 定 范围 的 比例 缩放 得 到 的 窗 
口 进行 小 波 变 换 , 然 后 利用 支持 向 量 机 检测 变换 的 结果 是 否 可 以 与 小 波 模板 匹配 ,如 果 匹 配 
成 功 , 则 认为 检测 到 一 个 行人 。 

2. 图 像 中 的 文本 定位 

将 支持 向 量 机 (SVM) 用 于 分 析 图 像 中 文本 的 纹理 特性 。 该 方法 不 需要 专门 提取 纹理 
特征 ,而 是 直接 将 像素 的 灰 度 值 作为 支持 向 量 机 的 输入 ,经 支持 向 量 机 处 理 后 输出 分 类 结果 
( 即 文本 或 非 文 本 )。 然 后 再 通过 消除 噪声 和 合并 文字 区 域 就 可 得 到 定位 结果 。 支 持 向 量 机 
对 于 文本 定位 有 很 好 的 鲁 棒 性 ,并 且 可 在 有 限 的 样本 中 进行 训练 。 

3. P2P 流量 识别 

P2P 流量 识别 问题 本 质 上 就 是 一 个 分 类 问题 ,将 未 知 流量 粗 分 为 PP 和 non-P2P 应 用 
属于 二 值 分 类 ,将 未 知 流量 细 分 为 各 个 具体 P2P 应 用 属于 多 值 分 类 。 因 此 支持 向 量 机 被 自 
然 地 应 用 到 P2P 流量 分 类 问题 。 


8.4 支持 向 量 机 分 类 实例 分 析 


将 支持 向 量 机 用 到 成 矿 的 定性 预测 上 。 成 矿 预测 是 一 项 理论 和 实践 紧密 结合 探索 性 极 
强 的 综合 研究 工作 ,预测 理论 和 方法 是 提高 找 矿 效果 的 首要 条 件 。 传 统 的 成 矿 预 测 模型 如 
人 工 神 经 网 络 , 它 作为 高 度 非 线性 动力 系统 ,具有 非 线 性 映射 .容错 性 好 和 自学 习 适 应 强 等 
特征 。 特 别 是 BP 神经 网 络 ,在 遥感 图 像 分 类 与 识别 、 资 源 预 测 等 地 学 领域 均 有 广泛 应 用 。 
神经 网 络 的 关键 技术 是 网 络 结构 ` 权 值 参数 及 学 习 规则 的 设计 ,但 目前 神经 网 络 的 网 络 结构 
需要 事先 指定 或 应 用 启发 式 算法 在 训练 过 程 中 寻找 ,并 且 网 络 系数 的 调整 和 初始 化 方法 没 
有 理论 指导 ,训练 过 程 易 于 陷入 局 部 极 小 、 过 学 习 、 收 敛 速 度 慢 。SVM 是 一 种 新 兴 的 机 器 学 
习 方 法 , 它 具 有 强 有 力 的 非 线 性 建 模 能 力 和 良好 的 泛 化 性 能 ,能 解决 小 样本 , 非 线性 、 高 维 数 
和 局 部 极 小 点 等 实际 问题 。 算 法 最 终 转 化 为 二 次 寻 优 问题 ,从 理论 上 得 到 全 局 最 优 解 , 有 效 
避免 了 局 部 极 值 问 题 ,同时 通过 非 线 性 变换 和 核 函数 巧妙 解决 了 高 维 数 问 题 , 使 得 算法 复杂 
度 与 样本 维 数 无 关 , 加 速 了 训练 学 习 速度 。 另 外 , 它 能 根据 有 限 样本 信息 在 模型 的 复杂 型 和 
学 习 能 力 之 间 寻 求 最 佳 折 中 ,保证 其 有 较 好 的 泛 化 能 力 。 

下 面 以 一 个 例子 验证 。 算 法 流程 如 图 8-6 所 示 。 

第 一 步 : 原始 数据 准备 

成 矿 作用 的 复杂 性 决定 了 成 矿 信 息 往往 具有 多 解 性 和 隐 含 性 ,以 云南 某 个 旧地 质 采 样 
综合 数据 为 研究 对 象 ,将 基于 SVM 的 模型 引入 地 质数 据 的 处 理 和 解释 。 实 际 资料 表明 ,该 
地 区 银 、 砷 、 钢 、 锐 \ 铜 . 铅 、 锌 、 录 的 组 合 异常 ,能 够 较 好 地 指示 矿 化 富 集 带 ,选取 此 地 空间 中 
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原始 数据 准备 





引入 待 测 样本 
引入 训练 样本 











系统 处 理 回 归结 束 








系统 处 理 输 入 数据 ， 执 行 
SVM 回归 算法 处 理 数据 和 输出 





确定 算法 相关 参数 













图 8-6 算法 流程 图 


8 个 化 学 元 素 中 具有 代表 性 的 元 素 作为 输入 数据 ,选择 矿 化 程度 作为 输出 。 


第 二 步 : 数据 预 处 理 


在 数据 准备 阶段 主要 选 定 预测 指标 ,对 已 有 的 历 


的 输入 和 输出 量 。 


史 数 据 资料 进行 收集 ,并 确定 成 矿 因 素 


(1) 输入 向 量 zx! 的 属性 及 含义 : 建 模 时 对 样本 中 的 因子 进行 归 一 化 处 理 (减少 各 个 因 


r;— min(z;) 





子 之 间 的 量 级 差别 ) ,使 用 好 





max(zi) —min(2z;) 
素 的 含量 。 
(2) 对 应 的 输出 向 量 Y 为 两 类 : 有 矿 与 无 矿 , 用 1 


将 样本 归 一 化 到 区 间 [0,1],z: 代 表 Zn 元 





代表 有 矿 ,0 代表 无 矿 , 如 表 8-1 所 示 。 


表 8-1 数据 预 处 理 阶段 
































标 号 Zn 矿 化 (Y) 
1 ai 1 
2 ai 1 
3 zi 0 
4 EA 0 
5 as 1 
6 as 1 
7 0 
8 x 1 
9 E: 1 
10 Tio 1 








通过 某 矿 m 的 前 矿物 的 历史 数据 来 预测 m 矿物 矿 化 程度 , 即 对 下 面 的 函数 进行 预 


测 : yw 一 (zwn-li,znu-z,…,Zzn-t)。( 这 其 实 是 一 个 回 





RM) ,其 过 程 程 就 是 : 依据 自 变 量 


和 因 变 量 的 历史 统计 资料 进行 计算 ,在 此 基础 上 建立 回归 分 析 方 程 , 即 回归 分 析 预 测 模 型 。 

第 三 步 : SVM 成 矿 预测 模型 
因为 构造 SVM 的 基础 是 Mercer 定理 ,所 以 建立 支持 向 量 机 的 核 函数 必须 满足 Mercer 
定理 条 件 。 在 该 例子 中 采用 RBF 核 函数 作为 基本 函数 建立 SVM 回归 模型 。 

RBF 核 函数 的 形式 为 

K(2,2;) = expC yl r> z l3) y0 

在 构建 SVM 回归 模型 的 过 程 中 C、y 和 e 这 3 个 参数 需 自主 决定 ,C 是 惩罚 常数 ,y 为 
高 斯 核 函 数 的 参数 ,e 为 不 敏感 区 域 的 宽度 ,模型 参数 选取 使 用 交叉 验证 方法 ,利用 Libsvm 
库 文件 实现 参数 的 选取 。 当 选取 合适 的 Cy Ale 3 个 参数 后 ,对 SVM 模型 进行 训练 样本 训 
练 和 预测 ,按理 论 给 出 表 8-2。 


表 8-2 建立 SVM 成 矿 预 测 模型 阶段 






































标 号 x 际 ffi SVM 预测 值 
1 X Y, 
2 X, Y; 
3 X; Y; 
4 Xi Y, 
5 xs Ys 
6 X« Ys 
7 X, Y; 
8 Xe Ys 
9 X. Y, 
10 Xi Yio 








Xi、Yi(i 二 1,2,3,4,5,6,7,8,9,10) 分 别 是 训练 样本 的 实际 值 ( 标 准 值 ) 和 待 测 样本 的 
SVM 预测 值 (经 过 分 类 器 输出 的 值 )。X;、Y; 均 是 Zn 元 素 的 含量 ,只 不 过 前 者 是 标准 值 ,后 
者 待 测 样本 的 SVM 预测 值 ,此 处 用 了 10 个 样本 , 表 8-2 一 来 是 可 以 看 出 分 类 器 的 预测 效 
果 , 二 来 是 可 以 通过 预测 值 判断 该 样本 是 属于 有 矿 的 一 类 还 是 无 矿 的 一 类 。 


8.5 基于 阿里 云 数 加 平台 的 支持 向 量 机 分 类 实例 


阿里 云 机 器 学 习 平台 对 支持 向 量 机 (SVM) 的 说 明 。 它 是 20 世纪 90 年 代 中 期 发 展 起 
来 的 基于 统计 学 习 理论 的 一 种 机 器 学 习 方 法 ,通过 寻求 结构 化 风险 最 小 来 提高 学 习 机 泛 化 
能 力 ,实现 经 验 风险 和 置信 范围 的 最 小 化 ,从 而 达到 在 统计 样本 量 较 少 的 情况 下 , 亦 能 获得 
良好 统计 规律 的 目的 ,本 版 ?线性 支持 向 量 机 不 是 采用 核 函 数 方式 实现 的 。 由 于 它 也 是 分 
类 算法 ,所 以 其 操作 思路 与 逻辑 回归 分 类 算法 一 致 。 这 里 使 用 第 6 章 的 训练 数据 与 测试 数 
据 进行 SVM 算法 操作 ,左边 为 训练 数据 ,右边 为 测试 数据 ,流程 图 如 图 8-7 所 示 。 

线性 支持 向 量 机 的 字段 设置 与 参数 设置 如 图 8-8 所 示 。 字 段 设置 中 ,特征 列 选择 的 是 
f0 一 {7 列 , 标 签 列 选 的 是 训练 数据 的 标签 列 y。 参 数 设 置 中 需要 注意 的 是 , 正 样本 的 标签 值 





CO ” 指 阿 里 云 机 器 学 习 平台 目前 的 版 本 。 
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{Ik co $ 
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图 8-7 流程 图 


为 目标 基准 值 ( 可 选 ); 不 指定 , 则 随机 选 一 个 ,建议 正 负 例 样 本 差异 大 时 指定 ; 正 负 惩罚 因 
子 默认 值 为 1.0, 当 不 指定 目标 基准 值 时 , 正 负 惩罚 因子 的 值 必须 相同 ; 收敛 系数 的 范围 为 
(0,1) ,默认 值 为 0. 001。 





























字段 设置 参数 设置 
正 样本 的 标 符 值 BS, label 值 中 随机 选择 … 
EREMAF TE (0, tinn 
字段 设置 sues 
10 
特征 列 支持 bigint double 负 例 三 入 因子 可 先 (0, +inf) 
已 沈 择 8 个 字段 10 
标签 列 支持 bigint, double, string MSS 
y | 0.001 
(a) (b) 


8-8 线性 支持 向 量 机 设置 界面 


预测 组 件 的 实验 结果 如 图 8-9 所 示 。 


ya predicion resulta predicion_scorea  predicion_detail a 


“a | -6777792816788.. | ("17 -6.777792816788367e-07, "-1": 6777792816788367e-07} 
“oa -0.000001099997..  {"+1": -1.099997953119241e-06, "1": 1.099997953119241e-06} 
+1 1 -3.000005458827.. (7417 -3.000005458827 1066-07, "-1": 3.000005458827 1066-07] 
4 [a -4555505367318.. — {"+1" ~4555585367318953e-07, "-1* 4 555585367318953e-07} 
-1 | -1 | -0.000001211738.. (7817. -1211738914041017e-06, 7-1". 1.211738914041017e-06} 
“|a | 3.888895099175...  {"+1" -3.888895099175442e-07, "-1": 3.888895099175442e-07) 
4 |a -1666713843591.. 《+ 人 -1.666713843591267e-07, 1" 1.666713843591267e-07} 
*14 -5.444443294536..  ("*«1" -5.444443294536754e-07, "-1". 5.4444432945367546-07] 
ka E -2.333349256058.. {717 -2.:333349256058312e-07, 7-1". 2.333349256058312e-07} 
+1 | A | -8.111112281569 .  (7«1"-8.111112281569945e-07, "-1" 8.1111122815699456-07] 





图 8-9 线性 支持 向 量 机 预测 结果 图 


混淆 矩阵 组 件 的 实验 结果 如 图 8-10 所 示 , 可 见 , 此 算法 处 理 这 个 数据 效果 不 是 很 好 。 


模型 ~ TR- mn Site ERE. Ax. BBE- FRA 
a 0 0 0 30% 0% 0% 0% 
a 3 7 10 30% 30% 100% 48.154% 


图 8-10 线性 支持 向 量 机 混 清和 矩阵 结果 图 


8.6 小 结 


本 章 介绍 了 在 统计 学 习 理 论 基础 之 上 发 展 起 来 的 SVM 算法 。 重 点 剖析 了 SVM 原理 ， 
包括 支持 向 量 机 核心 理论 .最 大 间隔 分 类 超 平面 ,支持 向 量 机 、 核 函数 分 类 。 然 后 举 出 一 个 
将 支持 向 量 机 用 到 成 矿 的 定性 预测 上 的 实例 。 最 后 介绍 了 支持 向 量 机 算法 的 特点 以 及 
应 用 。 


B 考 B 
l. 简 述 一 致 性 的 定义 。 
2. 简 述 最 大 间隔 分 类 超 平面 的 定义 。 
3. 支持 向 量 机 的 关键 技术 是 什么 ? 
4. 支持 向 量 机 的 优 缺 点 是 什么 ? 
5. 支持 向 量 机 的 基本 思想 是 什么 ? 请 举例 说 明 支 持 向 量 机 的 应 用 。 
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第 9 章 人 工 神 经 网 络 算法 


9.1 基本 概念 


9.1.1 生物 神经 元 模型 


人 的 神经 系统 是 由 众多 神经 元 相互 连接 而 成 的 一 个 复杂 系统 ,神经 元 又 叫 神经 细胞 , 它 
是 神经 组 织 的 基本 单位 。 如 图 9-1 所 示 , 神 经 元 由 细胞 体 和 延伸 部 分 组 成 ,延伸 部 分 按 功 能 
分 为 两 类 ,一 类 称 为 树 突 , 用 来 接受 来 自 其 他 神经 元 的 信息 ; 另 一 类 则 用 来 传递 和 输出 信 
息 , 称 为 轴 突 。 神 经 元 对 信息 的 接受 和 传递 都 是 通过 突 触 来 进行 的 ,单个 神经 元 可 以 从 别 的 
神经 细胞 接受 多 达 上 千 个 的 突 触 输入 ,前 一 个 神经 元 的 信息 经 由 其 轴 突 传 到 末梢 之 后 ,通过 
突 触 对 后 面 各 个 神经 元 产生 影响 。 当 若干 突 触 输入 时 ,其 中 有 些 是 兴奋 性 的 ,有 些 是 抑制 性 
的 ,如 果 兴 奋 性 突 触 活动 强度 总 和 超过 抑制 性 突 触 活动 强度 总 和 ,使 得 细胞 体内 电位 超过 某 
一 阐 值 时 ,细胞 体 的 膜 会 发 生 单 发 性 的 尖峰 电位 ,这 一 尖峰 电位 将 会 沿 着 轴 突 传播 到 四 周 与 
其 相 联 系 的 神经 细胞 。 














v 


轴 突 





图 9-1 生物 神经 元 模型 


从 生物 控制 论 的 观点 来 看 ,神经 元 作为 控制 和 信息 处 理 的 基本 单元 ,具有 下 列 一 些 重 要 
的 功能 和 特性 。 

。 时 空 整合 功能 ; 

。 兴奋 与 抑制 状态 ; 

。 脉冲 与 电位 转换 ; 

。 神经 纤维 传导 速度 迅速 ; 

。 学 习 、 遗 忘 和 疲劳 。 


9.1.2 人 工 神经 元 模型 


人 们 通过 研究 发 现 ,大 脑 之 所 以 能 够 处 理 极其 复杂 的 分 析 、 推 理工 作 , 一 方面 是 因为 其 
神经 元 个 数 的 庞大 , 另 一 方面 还 在 于 神经 元 能 够 对 输入 nm 
信号 进行 非 线性 处 理 。 人 工 神经 元 模型 就 是 用 人 工 方 : 
ARMEA 7 TE we A SE E EDA 2 + 
象 ,模拟 与 简化 , 它 是 一 个 多 输入 、 单 输出 的 非 线 性 元 : 
件 ,单个 神经 元 是 前 向 型 的 。 将 人 工 神经 元 的 基本 模型 i ud 
和 激励 函数 合 在 一 起 构成 的 人 工 神经 元 ,就 是 著名 的 
McCulloch-Pitts 模型 ,简称 为 MP 模型 ,如 图 9-2 所 示 。 
图 9-2 表明 ,人 工 神经 元 具有 许多 的 输入 信号 ,针对 每 个 输入 都 有 一 个 加 权 系数 ws , 称 
为 权 值 (weights) , 权 值 的 正 负 模拟 了 生物 神经 元 中 突 触 的 兴奋 和 抑制 ,其 大 小 则 代表 了 突 
触 的 不 同 连接 强度 ,而 中 间 的 神经 元 对 所 有 的 输入 信号 进行 计算 处 理 , 然 后 将 结果 输出 。 在 
神经 元 中 ,对 信号 进行 处 理 采用 的 是 数学 函数 ,通常 称 为 激活 函数 、 激 励 函 数 或 挤 压 函数 ,其 
输入 、 输 出 关系 可 描述 如 下 

















图 9-2 人工 神经 元 模型 


LZ = 2-06 
ly = fu) 
式 中 zxi(i 王 1,2,…,n) 是 从 其 他 神经 元 传 来 的 输入 信号 ; 0; FEE RAE w RRA 
神经 元 i 到 神经 元 j 的 连接 权 值 ，/(， ) 为 激活 函数 或 挤 压 函数 。 由 于 神经 元 采用 了 不 同 
的 激活 函数 ,使 得 神经 元 具有 不 同 的 信息 处 理 特性 ,而 神经 元 的 信息 处 理 特性 是 决定 神经 网 
络 整 体 性 能 的 主要 因素 之 一 ,因此 激活 函数 具有 重要 的 意义 。 下 面 介绍 4 种 常用 的 激活 函 
数 形式 。 


(9-1) 


1， 阔 值 型 函数 
阀 值 型 函数 即 (zx) 为 阶 跃 函 数 , 表 达 式 如 下 。 
fi r>0 
f(x) = (9-2) 
lo. r«0 


具有 这 一 作用 方式 的 神经 元 称 为 阔 值 型 神经 元 ,是 神经 元 模型 中 最 简单 的 一 种 ,经 典 的 
M-P 模型 神经 元 就 属于 这 一 类 。 
2. 分 段 线性 函数 
此 函数 特点 是 神经 元 的 输入 与 输出 在 一 定 区 间 内 满足 线性 关系 。 这 类 函数 也 称 为 伪 线 
性 函数 ,表达 式 如 下 。 
0, 20 
fG)—4r. O<r<x, (9-3) 
d; ae 
3. Sigmoid 函数 
Sigmoid 函数 也 叫 S 型 函数 ,通常 是 在 (0,1) 或 (一 1,1) 内 连续 取 值 的 单调 可 微分 函数 ， 
它 是 一 类 非常 重要 的 激活 函数 ,无 论 神 经 网 络 用 于 分 类 、 函 数 逼 近 或 优化 ,Sigmoid 函数 都 





人 工 神 经 网 络 咎 法 


wog 


AGB T2 Hi 55 7H] 


是 常用 的 激活 函数 。 常 用 指数 或 正切 等 一 类 曲线 表示 ,表达 式 如 下 。 
= 1 H = 
f= ipe 或 Kec 


其 中 4 又 称 为 Sigmoid 函数 的 增益 ,其 值 决定 了 函数 非 饱和 有 段 的 斜率 , 4 越 大 ， 曲 线 
越 陡 。 

4. 高 斯 函数 

高 斯 函数 (也 称 钟 型 函数 ) 也 是 极为 重要 的 一 类 激活 函数 ,常用 于 径 向 基 神 经 网 络 (RBF 
网 络 ) ,其 表达 式 如 下 。 





(9-4) 


fa) = (9-5) 
式 中 9 称 为 高 斯 函数 的 宽度 或 扩展 常数 。6 越 大 ,函数 曲线 就 越 平 坦 ; 反之 ,6 越 小 ,函数 曲 
线 就 越 陡峭 。 


9.1.3 主要 的 神经 网 络 模型 


人 工 神经 网 络 是 由 大 量 的 神经 元 ,按照 大 规模 并 行 的 方式 ,通过 一 定 的 拓扑 结构 连接 而 
成 的 网 络 。 神 经 元 只 是 单个 的 处 理 单元 ,并 不 能 实现 复杂 的 功能 ,只 有 大 量 神经 元 组 成 庞大 
的 神经 网 络 , 才 能 实现 对 复杂 信息 的 处 理 与 存储 ,并 表现 出 各 种 优越 的 特性 ,因此 必须 按 一 
定 规则 将 神经 元 连接 成 神经 网 络 , 并 使 网 络 中 各 神经 元 的 连接 权 按 一 定 规则 变化 ,这 样 一 来 
也 就 产生 了 各 式 各 样 的 神经 网 络 模型 。 到 目前 为 止 ,学 术 界 的 研究 人 员 已 经 提出 了 近 60 种 
神经 网 络 模型 ,可 按 下 述 几 方面 对 其 进行 分 类 。 

(1) 按 神 经 网 络 的 拓扑 结构 可 以 分 为 反馈 神经 网 络 模型 和 前 馈 神 经 网 络 模型 。 

(2) 按 神经 网 络 模型 的 性 能 可 分 为 连续 型 与 离散 型 神经 网 络 模型 .确定 型 与 随机 型 神 
经 网 络 模型 。 

(3) 按 学 习 方 式 可 以 分 为 有 导师 学 习 和 无 导师 学 习 神 经 网 络 模型 。 

(4) 按 连接 突 触 性 质 可 分 为 一 阶 线性 关联 和 高 阶 非 线 性 关联 神经 网 络 模型 。 

目前 使 用 的 比较 典型 的 一 些 神经 网 络 模型 主要 有 以 下 几 类 。 

1. 误差 后 向 传播 (Back Propagation ,BP) 神 经 网 络 

BP 神经 网 络 是 前 馈 网 络 中 最 具 代 表 性 的 网 络 类 型 。 该 类 神经 网 络 模型 是 一 种 多 层 映 
射 神经 网 络 , 采 用 的 是 最 小 均 方差 的 学 习 方式 ,是 目前 使 用 最 广泛 的 神经 网 络 模型 之 一 ,多 
层 感 知 网 络 是 一 种 具有 三 层 或 三 层 以 上 的 阶层 型 神经 网 络 。 典 型 的 多 层 感知 网 络 是 三 层 、 
前 馈 的 阶层 网 络 , 即 输入 层 、 隐 含 层 (也 称 中 间 层 ) 和 输出 层 。 相 邻 层 之 间 的 各 神经 元 实现 全 
连接 , 即 下 一 层 的 每 一 个 神经 元 与 上 一 层 的 每 个 神经 元 都 实现 全 连接 ,而 且 每 层 各 神经 元 之 
间 无 连接 。 

2. 径 向 基 函 数 (Radial Basis Function. RBF) tp £z JH £& 

BR BP 神经 网 络 以 外 , 径 向 基 函 数 神经 网 络 也 是 一 类 常用 的 前 馈 网 络 。 一 般 情 况 下 ， 
RBF 网 络 采 用 三 层 结构 , 层 间 的 神经 元 的 连接 方式 同 BP 网 络 类 似 ,也 是 采用 层 间 全 连接 、 
层 内 无 连接 方式 。 与 BP 神经 网 络 最 大 的 不 同 之 处 在 于 ,RBF 网 络 的 隐 结 点 的 基 函 数 采 用 
距离 函数 (如 欧 氏 距离 ) ,并 使 用 径 向 基 函 数 (如 高 斯 函数 ) 作为 激活 函数 。 

3. Hopfield 网 络 

Hopfield 网 络 作为 一 种 单 层 对 称 全 反馈 神经 网 络 , 使 用 与 层次 型 神经 网 络 不 同 的 结构 




















特征 和 学 习 方 法 ,模拟 生物 神经 网 络 的 记忆 机 理 , 获 得 了 令 人 满意 的 结果 。 它 是 由 相同 的 神 
经 元 构成 的 单 层 ,并且 不 具 学 习 功能 的 自 联 想 网 络 。 网 络 的 权 值 按 一 定 规则 计算 出 来 ,一 经 
确定 就 不 再 改变 ,而 网 络 中 各 神经 元 的 状态 在 运行 过 程 中 不 断 更 新 ,网 络 演变 到 稳 态 时 各 神 
经 元 的 状态 便 是 问题 之 解 。 

Hopfield 网 络 有 离散 型 和 连续 型 两 种 ,其 中 离散 型 的 激活 函数 为 二 值 型 的 ,其 输入 、 输 
出 为 {0,1} 的 反馈 网 络 , 主 要 用 于 联想 记忆 ,而 连续 型 Hopfield 网 络 的 激活 函数 的 输入 与 输 
出 之 间 的 关系 为 连续 可 微 的 单调 上 升 函数 ,主要 用 于 优化 计算 。 

4. 随机 型 神经 网 络 

在 BP 算法 和 Hopfield 算法 中 ,导致 网 络 学 习 过 程 陷入 局 部 极 小 值 的 原因 主要 有 下 列 
两 点 。 

CD 网 络 结构 上 存在 着 输入 与 输出 之 间 的 非 线 性 函数 关系 ,从 而 使 网 络 误差 和 能 量 函 
数 所 构成 的 空间 是 一 个 含有 多 极点 的 非 线 性 空间 。 

(2) 网 络 误差 和 能 量 函 数 只 能 按 单方 面 减 小 而 不 能 有 丝毫 的 上 升 趋势 。 

随机 型 神经 网 络 从 解决 网 络 收敛 问题 的 第 二 点 原因 入 手 ,其 基本 思想 是 ; 不 但 让 网 络 
的 误差 和 能 量 函数 向 减 小 的 方向 变化 ,而 且 还 可 按 某 种 方式 向 增 大 的 方向 变化 ,目的 是 使 网 
络 有 可 能 跳出 局 部 极 小 值 而 向 全 局 最 小 点 收敛 。 随 机 型 神经 网 络 的 典型 算法 是 模拟 退火 
算法 。 

5. Kohonen 网 络 

Kohonen 网 络 的 构想 来 源 于 人 的 视网膜 及 大 脑 皮 层 对 刺激 的 反应 机 理 。 对 于 某 一 个 
输入 模式 ,通过 竞争 在 输出 层 中 只 激活 一 个 相应 的 输出 神经 元 ,模式 在 输出 层 中 将 激活 许多 
个 神经 元 ,从 而 形成 一 个 反映 输入 数据 的 许多 输入 特征 图 形 。 

Kohonen 网 络 含有 两 层 ,输入 缓冲 层 用 于 接收 输入 模式 ,输出 层 的 神经 元 一 般 按 正则 
二 维 阵列 排列 ,每 个 输出 神经 元 连接 至 所 有 输入 神经 元 ,连接 权 值 形成 与 已 知 输出 神经 元 相 
连 的 参考 矢量 的 分 量 。Kohonen 网 络 是 一 种 以 无 导师 方式 进行 网 络 训练 的 网 络 , 它 通过 自 
身 训练 ,自动 地 对 输入 模式 进行 分 类 。 

6. 玻 耳 兹 曼 机 

玻 耳 兹 曼 机 是 由 Hinton 等 人 提出 的 , 它 的 思想 主要 来 源 于 统计 物理 学 。 在 统计 物理 
学 中 ,经 常 基于 能 量 来 考虑 状态 的 转移 。 在 状态 转移 的 过 程 中 ,由 于 热 骚动 引起 系统 的 不 稳 
定 ,状态 向 着 能 量 最 小 的 方向 转移 。 统 计 物理 学 中 的 玻 耳 兹 曼 分 布 指出 : 能 量 越 小 的 状态 ， 
发 生 的 概率 就 越 大 , 即 系统 趋向 于 能 量 最 小 的 状态 ,而 神经 网 络 中 的 玻 耳 兹 曼 机 就 是 利用 了 
这 种 分 布 寻 求 最 优 。 玻 耳 兹 曼 机 本 质 上 是 建立 在 Hopfield 网 络 基 础 上 的 ,具有 学 习 能 力 ， 
能 够 通过 一 个 模拟 退火 过 程 寻求 解答 。 

7. 对 向 传播 神经 网 络 

对 向 传播 (counter-propagation) 神经 网 络 (CP 网 络 ) 是 美国 神经 计算 机 专家 Robert 
Hecht-Nielsen 于 1987 年 提出 的 。 它 是 将 Kohonen 特征 映射 网 络 与 Grossberg 基本 竞争 
型 网 络 巧妙 结合 的 一 种 新 型 特征 映射 网 络 。 实 际 上 ,CP 网 络 就 是 用 无 导师 学 习 来 解决 网 
络 隐 含 层 的 理想 输出 未 知 的 问题 ,用 有 导师 学 习 解 决 输出 层 按 系统 要 求 给 出 指定 输出 的 问 
题 ,这 一 网 络 被 有 效 地 应 用 于 模式 分 类 、 函 数 近似 、 统 计 分 析 和 数据 压缩 等 领域 。 
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9.2 BP 算法 的 原理 


9.2.1 Delta 学 习 规 则 的 基本 原理 


Delta 学 习 规则 又 称 梯度 法 或 最 速 下 降 法 ,其 要 点 是 改变 单元 间 的 连接 权重 来 减 小 系统 
实际 输出 与 期 望 输出 间 的 误差 。Delta 学 习 规 则 是 最 常用 的 神经 网 络 学 习 算 法 ,主要 应 用 在 
误差 纠正 学 习 过 程 中 , 它 也 是 一 种 有 导师 学 习 算法 。 

假定 神经 元 权 值 修 正 的 目标 是 极 小 化 标量 函数 F(w) ,其 中 下 (w) 函数 代 表 神 经 网 络 的 
误差 目标 函数 ,ww 代表 神经 网 络 中 的 某 一 连接 权 值 。 如 果 神 经 元 的 当前 权 值 为 ww(1), 并 且 
假设 下 一 时 刻 的 权 值 调节 公式 为 


w(t+1) = w(t) + Awl) (9-6) 
式 中 ,Arxe(2) 表 示 当 前 时 刻 的 权 值 修正 方向 。 显 然 ,我 们 期 望 每 次 权 值 修正 都 能 满足 
FCw(G 十 1)) < FGo() (9-7) 


这 样 神经 网 络 输出 的 误差 才 会 随 着 训练 过 程 的 进行 而 不 断 地 向 最 小 化 的 目标 靠近 。 对 
F(rw(t 十 1)) 进 行 一 阶 泰勒 公式 展开 .得 


Flw(t+1)) = FGoG) + AwG)) œ Flw(t)) + g! Awl) (9-8) 
RP, gT 0) — VEGoG)) Bl Faw) 4E w= wO ER EA RE. GER, n RH 
Aw(t) —— cg (t) (9-9) 


式 中 ,c 取 较 小 的 正 数 ( 称 为 学 习 率 ), 即 权 值 修正 量 沿 网 络 误差 曲面 的 负 梯 度 方向 取 较 小 值 , 则 
式 (9-8) 的 右边 第 二 项 必然 小 于 零 . 式 (9-7) 必 然 满足 ,这 就 是 Delta 学 习 规则 的 基本 原理 。 


9.2.2 BP 神 经 网 络 的 结构 


BP 神经 网 络 是 具有 三 层 或 三 层 以 上 的 阶层 型 神经 网 络 , 由 输入 层 、 隐 含 层 和 输出 层 构 
成 , 相 邻 层 之 间 的 神经 元 全 互 连 ,同一 层 内 的 神经 元 无 连接 。 下 面 以 图 9-3 所 示 的 具有 一 个 
隐 含 层 的 三 层 BP 网 络 来 介绍 BP 算法 的 实现 。 














输入 结 点 i 隐 层 结 点 j 输出 结 点 k 


图 9-3 三 层 BP 神经 网 络 结构 示意 图 


如 图 9-3 所 示 , 假 设 输入 层 、 隐 含 层 和 输出 层 的 单元 数 分 别 是 TJ 和 K eS AI Gro xi 
Zz，"… ,XT1-1)， 隐 伟 层 输出 为 (ho, 有 ,hs,…,hj-1), 网 络 实际 输出 为 (yos ya yas t yx 
(do ,di,ds，… ,dk-1) 表 示 训 练 样本 期 望 输出 。 输 入 层 单元 i 到 隐 含 层 单元 7 的 权 值 为 wy， 
隐 含 层 单元 7 到 输出 层 单元 & 的 权 值 为 wa, 用 9; 和 04 来 分 别 表示 隐 含 层 单元 和 输出 层 单 
元 的 阔 值 。 于 是 ,该 网 络 隐 含 层 单元 的 输出 值 为 





h; = s Dr -&) (9-10) 
输出 层 各 单元 的 输出 值 为 


f m] 
ye = (Xen — 6) (9-11) 
= 


9.2.3 BP 神经 网 络 的 算法 描述 


BP 算法 的 主要 思想 是 从 后 向 前 ( 反 向 ) 逐 层 传 播 输出 层 的 误差 ,以 间接 算出 隐 层 误差 。 
算法 分 为 两 个 阶段 : 第 一 阶段 ( 正 向 传播 过 程 ) 输 入 信息 从 输入 层 经 隐 层 逐 层 计算 各 单元 的 
输出 值 ,第 二 阶段 ( 反 向 传播 过 程 ) 输 出 误差 逐 层 向 前 算出 隐 层 各 单元 的 误差 ,并 用 此 误差 修 
正 前 层 权 值 。 其 中 的 网 络 权 值 调整 采用 Delta 学 习 规 则 , 即 根据 梯度 法 沿 着 误差 曲面 的 梯 
度 方向 下 降 速 度 最 快 ,从 而 实现 网 络 误差 的 最 小 化 。 

1. 正 向 计算 输出 阶段 

以 图 9-3 所 示 的 BP 神经 网 络 为 例 , 假 设 BP 网 络 的 输入 层 结 点 数 为 工 隐 含 层 结 点 数 为 
J 输出 层 结 点 数 为 K, 输入 向 量 为 X? 一 (zoyzlvzi,…yzr-i), 其 期 望 输出 向 量 为 D*= 
(do «di «dz dai) WA 

(1) 输入 层 ， 





O= xi i—0.1,2,.1—1 (9-12) 
D 隐 含 层 : 2S RR CREE SI JEA SLT BIE S f — A D E BEL, HEX I AN HY 
一 1。 对 于 第 7 个 神经 元 的 输入 为 


I 
net; = D yO, 其 中 Or —— 1 vy WAL (9-13) 
i=0 
其 第 j 个 结 点 的 输出 为 : 
O; = f(net;), j=0,1,2,.…,J—1 (9-14) 
(3) 输出 层 : 同 理 ,对 于 第 & 个 神经 元 的 输入 为 
J 
net, = X w0; 其 中 Oj = 一 1.wn NM (9-15) 
名 
其 第 个 结 点 的 输出 为 : 
O: = f(neti), k=0,1,2,.…,K—1 (9-16) 
定义 BP 网 络 的 能 量 函 数 ( 误 差 函 数 ) 为 
K-1 
g, -l (d£ — Of)? (9-17) 
2 k=0 
则 NN 个 样本 的 总 误差 为 
1 NN 
Es = zN ù 24 (41 — Of) (9-18) 


p=0 k=0 
AH: Es 为 了 的 输出 误差 ; df 为 样本 了 的 期 望 输出 ; OP. 为 输出 层 神 经 元 的 实际 输出 。 

2. 误差 反 向 传播 阶段 (网 络 权 值 修正 阶段 ) 

通过 调整 权 值 和 闵 值 ,使 得 误差 能 量 达 到 最 小 时 ,网 络 趋 于 稳定 状态 ,学 习 结束 。 求 解 
无 约束 最 优化 方程 (9-17) 的 常用 方法 有 : 拟 牛 顿 迭代 法 、 最 速 梯度 下 降 法 等 。 但 第 一 种 方 
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法 涉及 矩阵 求 逆 ,其 计算 量 大 ,因此 可 采用 第 二 种 方法 来 调整 权 值 。 
(1) 输出 层 与 隐 含 层 之 间 的 权 值 调整 。 对 每 一 个 wx 的 修正 值 为 







































































Aui; JE 3E " Anet: 
Wijk 1 Jwg 7 Inet OU 
RP: 7 为 学 习 步 长 , 取 值 介 于 (0,1) ,对 式 (9-15) 求 偏 导 得 
Anete — 
ug ==; 
i _ dE 
记 : = Inet, 
则 有 
3E 3E 30, — 
E» CEPS 50, men = (^ On) f' (nets) 
将 式 (9-20) , 式 (9-21) 代 入 式 (9-19) 中 得 
JE JE Anet: 
Awa 1 Fwa Inet, Iwp 0; 
(2) 隐 会 层 与 输入 层 的 权 值 调整 。 同 理 ,对 每 一 个 os TE 7 
3E JE Anet; dE 
an 1 Joy 73anet © 2u; ( 2net; Jo. yo. 
3E | 9E, 20; 
其 中 ,6 Anet; 20; Anet; 
再 根据 
JE 9 (1N5 V JO, _ net 
g ri ), CA e k 
90; x0 2 Dd 90 ) Ew OW net 20; 
Ea 天 一 1 
= (d, — Op) f (nets we = OW ga 
k=0 k=0 
得 
K-1 
6; = f (net) dew x 
k=0 
综 上 所 述 , 若 BP 神经 网 络 每 一 层 的 激活 函数 均 取 单 极 S 型 函数 , 即 
o d 
f(net) = We 
则 可 以 方便 地 计算 出 该 网 络 各 层 的 权 值 修正 量 。 
CD 对 于 输出 层 : 
Awa = 70; Cdi — O) f (ne) = q0; Cdi — OO — O) 
(2) 对 于 隐 含 层 : 
Ki K-1 


Avy = q * f (net) Sow * O; = 70; — OD X drwa * O; 
天 一 0 k=0 


9.2.4 标准 BP 神经 网 络 的 工作 过 程 


(9-19) 


(9-20) 


(9-21) 


(9-22) 


(9-23) 


(9-24) 


(9-25) 


(9-26) 


(9-27) 


(9-28) 


BP 神经 网 络 的 工作 过 程 通常 有 两 个 阶段 组 成 : 在 第 一 个 阶段 ,神经 网 络 各 结 点 的 连接 
权 值 固 定 不 变 , 网 络 的 计算 从 输入 层 开始 , 逐 层 逐 个 结 点 地 计算 每 一 个 结 点 的 输出 ,计算 完 





毕 后 ,进入 第 二 个 阶段 , 即 学 习 阶段 。 在 学 习 阶 段 ,各 结 点 的 输出 保持 不 变 , 网 络 学 习 从 输出 





层 开始 , 反 向 逐 层 逐个 结 点 地 计算 各 连接 权 值 的 修改 量 , 以 修改 各 连接 的 权 值 , 直 到 输入 层 


为 止 。 这 两 个 阶段 称 为 正 向 传播 和 反 向 传播 过 程 。 在 正 向 传播 中 ,如 果 在 输出 层 的 网 络 输 
出 与 期 望 输出 相差 较 大 , 则 开始 反 向 传播 过 程 ,根据 网 络 输出 与 所 期 望 输出 的 信号 误差 ,对 
网 络 结 点 间 的 各 连接 权 值 进行 修改 ,以 此 来 减 小 网 络 实际 输出 与 所 期 望 输出 的 误差 。BP 网 
络 正 是 通过 这 样 不 断 进 行 的 正 向 传播 和 反 向 传播 计算 过 程 ,最 终 使 得 网 络 输 出 层 的 输出 值 


与 期 望 值 趋 于 一 致 。 
BP 神经 网 络 的 总 体 步骤 大 致 如 下 所 示 。 


CD 权 值 初始 化 : wi — RandomC * ) ,tw 二 Random(。), 其 中 wi 表示 网 络 输 入 层 单元 
到 隐 含 层 单元 的 连接 权 值 ; wj 表示 网 络 隐 含 层 单元 到 输出 层 单元 的 连接 权 值 。 
(2) 依次 输入 PP 个 学 习 样 本 。 设 当前 输入 为 第 p 个 样本 。 


(3) 依次 计算 各 层 的 输出 : OF Ons 其 中 
O 为 隐 含 层 上 第 7 个 神经 元 的 输出 。Ox 为 输 
出 层 上 第 k 个 神经 元 的 输出 。 
(4) 根据 式 (9-21)、 式 (9-25), 求 网 络 各 层 
的 反 传 误差 ,表达 式 如 下 。 
ôr = (di — Oe) f Cnet) — (9-29) 
天 一 1 
8; = f' (net) drwy (9-30) 
k=0 
并 记 下 各 个 Oj? Oi? 的 值 ; 
(5) 记录 已 经 学 习 过 的 样本 个 数 p. MR 
Pp 二 P, 转 到 步 又 (2) ,继续 计算 ; 如 果 p= PH 
到 步骤 (6) 。 
(6) 按 权 值 修正 公式 修正 各 层 的 权 值 和 
BU ( . 
(7) PERT AL ELF it EOF” OP 和 Es = 





p=0 k=0 
的 第 & 个 输出 神经 元 ,都 满足 | de? — Of” | —e. 
或 达到 最 大 学 习 次 数 , 则 终止 学 习 ; 否则 , 转 到 
步骤 (2) ,继续 新 一 轮 的 网 络 学 习 。 

为 形象 起 见 , 我 们 将 标准 BP 算法 的 整个 
过 程 连贯 起 来 ,得 到 以 下 的 BP 网 络 学 习 算 法 
流程 ,如 图 9-4 所 示 。 


网 络 权 值 初始 化 
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1 





m 








谈 取 下 一 个 样本 



















计算 网 络 输出 











误差 满足 要 求 或 
到 达 最 大 次 数 





9-4 BP 网 络 学 习 算 法 流程 图 


9.3 BP 神经 网 络 实例 分 析 


【 例 9.1】 采用 BP 网 络 映射 图 9-5 曲线 规律 。 


解 : 设计 BP 网 络 结构 如 图 9-6 Aras. 
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单 隐 层 1-4-1BP 网 络 
图 9-6 BP 网 络 结构 


权 系 数 随机 选取 为 ， 
wir =0.2, w3 一 0.3， wu =0.4, wis = 0.5 
we =0.5, ws 一 0.2， wi 一 0.1， wss = 0.4 
取 学 习 率 ?一 1, 按 图 中 曲线 确定 学 习 样本 数据 如 表 9-1 所 示 ( 每 0.05 取 一 学 习 数据 , 共 
80 Xf). 


表 9-1 学 习 样本 数据 























Z( 输 入 信号 ) GEO as EXE PN EED] y( 教 师 信 号 ) 
0. 0000 0. 5000 m 3. 0000 0. 0000 
1. 0000 1. 0000 = 4. 0000 0. 5000 
按 表 中 数据 开始 进行 学 习 。 


第 一 次 学 习 , 输 入 201 =0. 000001 结 点 第 1 次 学 习 ) «di —0. 5000. it H 2,3,4,5 单元 状 
态 net; 
net; = wr} = wj + 0.0000 = 0.0000 (i = 2.3.4.5) 
计算 2、3、4、5 各 隐 层 单元 输出 y; Ci 2.3.4.5) 


yi = f(net:) = 1/1 +e) = 0.5 
计算 输出 层 单元 6 的 状态 值 nets 及 输出 值 y3。 
0.5 
nets = WsY;=[0.5 0.2 0.1 0.4] is — 0.6 
0.5 
ys = 1/A+e™) = 1/0 +e°*) = 0.6457 


反 推 确定 第 二 层 权 系数 变化 












































6% = yids — ys) (1 — ys) = 0.6457(0.5—0.6457)(1—0.6457) 0. 0333 
wis = wis + gòis yi (i = 2.3.4.5) 
第 一 次 反 传 修正 的 输出 层 权 为 
0.5 0.5 0. 4833 
Ws = Nel 十 1。( 一 0.0333) pes ee 
0.1 0.5 0. 0833 
0.4 0.5. 0. 3833 
反 推 第 一 层 权 系数 修正 
ôi = Ow yi (1 — yl) G = 2,3,4,5) 
wi = wht lel 
Wi —[0.2 0.3 0.4 0.5]" 
8 — 2] «a =0. 0500. d$ —0. 5250, 
net; = wri i = 2,3,4,5 
yh = Y + eem] = 1/[1 + e 092059 ] = 0, 5025 
X = M 4 ec] = 1/[1 4 e (05x09 ] = 0, 5037 
yh = 1/[1 + e 09.059 = 0, 5050 
ys = 0.5062 
计算 6 单元 状态 net: 
0. 5025 
net, = WZY, = [0.4833 0.1833 0.0833 0.3833] iiber 0. 5713 
0. 5050 
0. 5062 


ye = f(nets) = 1/1 + €?*9*) = 0, 6390 
按 表 中 数据 依次 训练 学 习 , 学 习 次 数 足够 高 时 ,可 能 达到 学 习 目 的 。 
【 例 9.2】 如 图 9-7 所 示 是 一 个 单 隐 层 3-2-1BP 网 络 。 
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PARA MMS AMARA, BW 9-2 所 示 。 


表 9-2 初始 值 











计算 各 隐 含 层 以 及 输出 层 的 输入 、 输 出 值 ,如 表 9-3 所 示 。 
表 9-3 各 隐 含 层 以 及 输出 层 的 输入 、 输 出 值 

















结 点 网 络 输入 值 输 出 dà 
4 0.2 十 0 一 0. 5 一 0. 4 一 一 0.7 1/C+e%") —0. 332 
5 一 0.3 十 0 十 0.2 十 0. 2 一 0.1 1/(1 十 e *!)—0.525 
6 (一 0.3)(0.332) 一 (0.2)(0.525) 十 0.1 一 一 0.105 1/(1 e*15) =0. 474 





反 推 各 层 系 数 修正 ,如 表 9-4 所 示 。 
表 9-4 各 层 系数 修正 














结 点 权 系数 变化 
(0.474)(1 一 0.474)(1 一 0.474) 一 0. 1311 
(0. 525) (1—0. 525)(0. 1311) ( —0. 2) = —0. 0065 
4 (0, 332) (1—0. 332) (0. 1311) ( —0. 3) = — 0. 0087 


经 过 第 一 次 学 习 得 到 的 新 的 权 系 数 和 阔 值 如 表 9-5 所 示 。 









































K 9-5 新 的 权 系数 和 阔 值 
BUS BUR BI (fi 新 的 du 
wis 一 0. 3+ (0. 9) (0. 1311) (0, 332) = — 0. 261 
wss —0. 2+ (0. 9) (0. 1311) (0, 525) = —0. 138 
wu 0. 2-- (0. 9) (—0. 0087) (1) —0. 192 
Wis 0. 3- (0. 9) (—0. 0065) (1) = —0. 306 
wa 0. 44- (0. 9)(—0. 0087) (0) —0.4 
Wes 0. 1d- (0. 9)(—0. 0065) (0) —0. 1 
wa 0. 5+(0. 9)(—0. 0087) (1) = —0. 508 
wis 0.2+ (0. 9)(—0. 0065) (1) —0. 194 
Os 0.1 十 (0.9)(0.1311) 一 0. 218 
Os 0.2 十 (0.9)( 一 0.0065) 一 0.194 
四 0.4 十 (0. 9) (—0. 0087) = — 0. 408 











9.4 BP 神经 网 络 的 特点 及 应 用 


9.4.1 BP 神经 网 络 的 特点 
BP 神经 网 络 具 有 以 下 优点 。 


(D 非 线性 映射 能 力 。BP 神经 网 络 实质 上 实现 了 一 个 从 输入 到 输出 的 映射 功能 ,数学 
理论 证 明 三 层 的 神经 网 络 就 能 够 以 任意 精度 逼近 任何 非 线性 连续 函数 ,这 使 得 其 特别 适合 
于 求解 内 部 机 制 复 杂 的 问题 , 即 BP 神经 网 络 具 有 较 强 的 非 线性 映射 能 力 。 

(2) 自学 习 和 自 适应 能 力 。BP 神经 网 络 在 训练 时 ,能 够 通过 学 习 自 动 提取 输入 、 输 出 
数据 间 的 “合理 规则 ”, 并 自 适 应 地 将 学 习 内 容 记 忆 于 网 络 的 权 值 中 。 即 BP 神经 网 络 具有 
高 度 自 学 习 和 自 适 应 的 能 

G) 泛 化 能 力 。 所 谓 泛 化 能 力 是 指 在 设计 模式 分 类 器 时 , 既 要 考虑 网 络 在 保证 对 所 需 
分 类 对 象 进行 正确 分 类 ,还 要 关心 网 络 在 经 过 训练 后 ,能 否 对 未 见 过 的 模式 或 有 噪声 污染 的 
模式 进行 正确 的 分 类 。 也 就 是 说 ,BP 神经 网 络 具 有 将 学 习 成 果 应 用 于 新 知识 的 能 力 。 

(4) 容错 能 力 。BP 神经 网 络 在 其 局 部 的 或 者 部 分 的 神经 元 受到 破坏 后 对 全 局 的 训练 
结果 不 会 造成 很 大 的 影响 ,也 就 是 说 即使 系统 在 受到 局 部 损伤 时 还 是 可 以 正常 工作 的 。 即 
BP 神经 网 络 具 有 一 定 的 容错 能 力 。 

BP 神经 网 络 也 暴露 出 了 越 来 越 多 的 缺点 和 不 足 , 主 要 如 下 。 

(1) 局 部 极 小 化 问题 。 从 数学 角度 看 ,传统 的 BP 神经 网 络 为 一 种 局 部 搜索 的 优化 方 
法 , 它 要 解决 的 是 一 个 复杂 非 线性 化 问题 ,网 络 的 权 值 是 通过 沿 局 部 改善 的 方向 逐渐 进行 调 
整 的 ,这 样 会 使 算法 陷入 局 部 极 值 , 权 值 收敛 到 局 部 极 小 点 ,从 而 导致 网 络 训 练 失败 。 加 上 
BP 神经 网 络 对 初始 网 络 权 重 非常 敏感 ,以 不 同 的 权重 初始 化 网 络 , 其 往往 会 收敛 于 不 同 的 
局 部 极 小 ,这 也 是 很 多 学 者 每 次 训练 得 到 不 同 结果 的 根本 原因 。 

(2) BP 神经 网 络 算法 的 收敛 速度 慢 。 由 于 BP 神经 网 络 算法 本 质 上 为 梯度 下 降 法 , 它 
所 要 优化 的 目标 函数 是 非常 复杂 的 ,因此 ,必然 会 出 现 * 锯 齿 形 现象 "这 使 得 BP 算法 低 效 ; 
又 由 于 优化 的 目标 函数 很 复杂 , 它 必然 会 在 神经 元 输出 接近 0 或 1 的 情况 下 ,出现 一 些 平坦 
区 ,在 这 些 区 域内 , 权 值 误差 改变 很 小 ,使 训练 过 程 几乎 停顿 。BP 神经 网 络 模型 中 ,为 了 使 
网 络 执行 BP 算法 ,不 能 使 用 传统 的 一 维 搜索 法 求 每 次 迭代 的 步 长 ,而 必须 把 步 长 的 更 新 规 
则 预先 赋予 网 络 ,这 种 方法 也 会 引起 算法 低 效 。 以 上 种 种 ,导致 了 BP 神经 网 络 算法 收敛 速 
度 慢 的 现象 。 

(3) BP 神经 网 络 结构 选择 不 一 。BP 神经 网 络 结构 的 选择 至 今 尚 无 一 种 统一 而 完整 的 
理论 指导 ,一 般 只 能 由 经 验 选 定 。 网 络 结构 选择 过 大 ,训练 中 效率 不 高 ,可 能 出 现 过 拟 合 现 
象 ,造成 网 络 性 能 低 ,容错 性 下 降 ; 若 选 择 过 小 , 则 又 会 造成 网 络 可 能 不 收敛 。 而 网 络 的 结 
构 直接 影响 网 络 的 逼近 能 力 及 推广 性 质 。 因 此 ,应 用 中 如 何 选择 合适 的 网 络 结构 是 一 个 重 
要 的 问题 。 

(4) 应 用 实例 与 网 络 规模 的 矛盾 问题 。BP 神经 网 络 难以 解决 应 用 问题 的 实例 规模 和 
网 络 规模 间 的 矛盾 问题 ,其 涉及 网 络 容量 的 可 能 性 与 可 行 性 的 关系 问题 , 即 学 习 复 杂 人 性 
问题 。 

(5) BP 神经 网 络 预 测 能 力 和 训练 能 力 的 矛盾 问题 。 预 测 能 力也 称 泛 化 能 力 或 者 推广 
能 力 ,而 训练 能 力也 称 逼 近 能 力 或 者 学 习 能 力 。 一 般 情 况 下 ,训练 能 力 差 时 ,预测 能 力也 差 ， 
并 且 一 定 程度 上 , 随 着 训练 能 力 地 提高 ,预测 能 力 会 得 到 提高 。 但 这 种 趋势 不 是 固定 的 ,其 
有 一 个 极限 , 当 达 到 此 极限 时 , 随 着 训练 能 力 的 提高 ,预测 能 力 反而 会 下 降 , 也 即 出 现 所 谓 
“过 拟 合 ” 现 象 。 出 现 该 现象 的 原因 是 网 络 学 习 了 过 多 的 样本 细节 导致 ,学 习 出 的 模型 已 不 
能 反映 样本 内 含 的 规律 ,所 以 如 何 把 握 好 学 习 的 度 ,解决 网 络 预测 能 力 和 训练 能 力 间 矛盾 问 
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题 也 是 BP 神经 网 络 的 重要 研究 内 容 。 





(6) BP 神经 网 络 样本 依赖 性 问题 。 网 络 模型 的 逼近 和 推广 能 力 与 学 习 样本 的 典型 性 


密切 相关 ,而 从 问题 中 选取 典型 样本 实例 组 成 训练 集 是 一 个 很 
9.4.2 BP 神经 网 络 的 应 用 





困难 的 问题 。 











随 着 人 工 神经 网 络 技术 的 不 断 成 熟 和 发 展 , 神 经 网 络 的 智能 化 特征 与 能 力 使 其 应 用 领 
域 日 益 扩 大 ,许多 用 传统 信息 处 理 方法 无 法 解决 的 问题 采用 神经 网 络 后 取得 了 良好 的 效果 ， 
特别 在 工程 领域 中 得 到 了 广泛 的 应 用 。 神 经 网 络 目前 主要 应 用 于 以 下 几 个 领域 。 





1. 信息 领域 








方面 











2. 自动 化 领域 





作为 一 种 新 型 智能 信息 处 理 系统 ,神经 网 络 应 用 于 信号 处 理 、 模 式 识别 、 数 据 压缩 等 


神经 网 络 和 控制 理论 与 控制 技术 相 结 合 ,发 展 为 自动 控制 领域 的 一 个 前 沿 学 科 一 一 神 
经 网 络 控制 。 在 系统 辨识 神经 控制 器 、 智 能 检测 等 方面 取得 了 发 展 。 


3. 工程 领域 
例如 ,汽车 工程 .军事 工程 ,化 学 工程 ,水利 工程 等 。 
4. 医学 领域 





5. 经 济 领域 


在 医学 领域 ,神经 网 络 可 用 于 检测 数据 分 析 、 生 物 活性 研究 、 医 学 专家 系统 等 。 


由 于 神经 网 络 具 有 优化 计算 、 聚 类 和 预测 等 功能 ,在 商业 界 得 到 广泛 的 应 用 。 金 融 市 场 


采用 神经 网 络 建立 信用 卡 和 货币 交易 模型 ,用 于 识别 信贷 客户 
方面 。 

















、 股 票 预测 和 证 券 市 场 分 析 等 


9.5 ”BP 神经 网 络 算法 源 代码 结果 分 析 


BP 神经 网 络 源 代码 包括 BpDeep. java、BpDeepTest. java 两 个 文件 ,相关 程序 和 实验 数 
据 可 从 github 中 下 载 ,网 址 为 https://github. com/guanyaol/bp. git. 


1. BpDeep. java 
Package bp; 


import java. util. Random; 
public class BpDeep { 


public double[ ][ ] layer; // 神 经 网 络 各 层 结 点 
public double[][] layerErr; // 神 经 网 络 各 结 点 误差 
public double[][][] layer weight; // 各 层 结 点 权重 
public double[][][] layer weight delta; < // 各 层 结 点 权重 动量 
public double mobp; // 动 量 系数 
public double rate; // 学 习 系数 


public BpDeep(int[ ] layernum, double rate, double mobp) { 


this.mobp = mobp; 
this. rate = rate; 
layer = new double[layernum. length][ ]; 


layerErr = new double[layernum. length][ ]; 
layer weight = new double[layernum. length] [ ][]; 
layer weight delta = new double[layernum. length][ ][ ]; 
Random random - new Random(); 
for(int 1= 0;1« layernum. length; 1++) { 
layer[1] = new double[layernum[1]]; 
layerErr[1] = new double[layernum[1]]; 
if(1*1«layernum. length) { 
layer weight[1] = new double[ layernum[1] + 1][ layernum[l * 1]]; 
layer weight delta[1] = new double[layernum[1] + 1][layernum[1+1]]; 
for(int j20;j«layernum[1] + 1; j++) 
for(int i=0;i<layernunm[1+1];i++) 
layer weight[1][j][i] = random. nextDouble();// 随 机 初始 化 权重 


} 
} 
// 逐 层 向 前 计算 输出 
public double[] computeOut(double[ ] in) { 
for(int 1 = 1;1< layer. length; 1++) { 
for(int j = 0;j<layer[1]. length; j++){ 
double z= layer weight[l- 1][layer[1- 1]. length][ j]; 
for(int i- 0;i«layer[l- 1]. length;i**)( 
layer[1- 1][i]2 17-2 1?in[i]:layer[1- 1][i]; 
z+= layer weight[1- 1][i][j] * layer[1- 1][i]; 
) 
layer[1][j] = 1/(1 + Math. exp( - z)); 
} 
} 
return layer[ layer. length- 1]; 
} 
// 逐 层 反 向 计算 误差 并 修改 权重 
public void updateWeight (double[ ] tar) { 
int 1 = layer.length- 1; 
for(int j = 0;j< layerErr[1]. length; j++) 
layergrr[1][j] = layer[1][j] * (1 - layer[1][j]) * (tar[j] - layer[1][j]); 
while(1--»0)( 
for(int j= 0;j< layerErr[1]. length; j** )( 
double z - 0.0; 
for(int i2 0;i«layerErr[1 + 1]. length; i++){ 
z=z+1>0?layerErr[1+1][i] * layer weight[1][j][i]:0; 
layer weight delta[1][j][i] = mobp * layer weight delta[1][j][i] + 


rate* layerErr[1 + 1][ i] * layer[1][ ]; // 隐 含 层 动量 调整 
layer weight[1][j][i] += layer_weight_delta[1][j][il; 
// 隐 含 层 权重 调整 


if(j == layerErr[1].length-1){ 
layer_weight_delta[1][j+1][i]= mobp x layer_weight_delta[ 1] 


[j* 1][i] + rate * layerErr[1+1][i]; // 截 距 动量 调整 
layer_weight[1][j+1][i] += layer weight delta[1][j * 1][i]; 
// 截 距 权重 调整 
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} 


layerErr[1][j] =zx layer[1][j] * (17 layer[1][j]); // 记 录 误 差 


} 

} 

public void train(double[] in, double[] tar) { 
double[] out = computeOut( in); 
updateWeight(tar) ; 


2. BpDeepTest. java 


package bp; 


import java. util. Arrays; 
public class BpDeepTest { 


} 


public static void main(String[ ] args) { 


// 初 始 化 神经 网 络 的 基本 配置 
// 第 一 个 参数 是 一 个 整 型 数组 , 表示 神经 网 络 的 层 数 和 每 层 结 点 数 , 例如 {3, 10, 10, 10, 
10,2} 表 示 输 入 层 是 3 个 结 点 ,输出 层 是 2 个 结 点 ,中 间 有 4 层 隐 含 层 ,每 层 10 个 结 点 
// 第 二 个 参数 是 学 习 步 长 ,第 三 个 参数 是 动量 系数 
BpDeep bp = new BpDeep(new int[ ](2,10,2), 0.15, 0.8); 
// 设 置 样本 数据 ,对 应 上 面 的 4 个 二 维 坐标 数据 
double[][] data = new double[ ][]{{1,2}, {2,2}, {1,1}, {2,1}}; 
// 设 置 目标 数据 ,对 应 4 个 坐标 数据 的 分 类 
double[][]target = new double[][ ]( (1,0), (0, 1), {0,1}, {1,0}}; 
/ [3 4 UI ZR 5000 次 
for(int n=0;n<5000;n++) 
for(int i=0;i<data. length; i++) 
bp. train(data[i], target[i]); 
// 根 据 训 练 结果 来 检验 样本 数据 
for(int j = 0;j<data. length; j++) { 
double[ ] result = bp. computeOut(data[j]); 
System. out. println( Arrays. toString(data[j]) + ":" + Arrays. toString( result) ) ; 





} 

// 根 据 训 练 结果 来 预测 一 条 新 数据 的 分 类 

double[] x = new double[ ]{3,1}; 

double[] result = bp. computeOut(x); 

System. out. println( Arrays. toString(x) + ":" + Arrays. toString(result)); 


程序 运行 结果 如 图 9-8 所 示 。 


[1.0, 2.0]:[0.9792429663754634, 0.020714806897922135] 
[2.0, 2.0]:[0.02243987014425978, 0.9772407157123231] 
[1.0, 1.0]:[0.01695876108386147, 0.9835856674940658] 
[2.0, 1.0]:[0.9793993593680249, 0.020566644452232063] 
[3.0, 1.0]:[0.9900781708516896, 0.009975165876220611] 


图 9-8 BP 神经 网 络 程序 运行 结果 图 


数据 : (1,2)、(2,2)、(1,1) 、(2,1) 对 应 的 分 类 为 {1,0)、{0,1)、{0,1)}、{1,0}) ,使 用 语句 
“BpDeep bp = new BpDeep(new int[ ]{2,10,2), 0.15. 0.8); ”来 设置 参数 ,第 一 个 参数 是 
一 个 整 型 数组 ,表示 神经 网 络 的 层 数 和 每 层 结 点 数 ,例如 {3,10,10,10,10,2}) 表 示 输 入 层 是 
3 个 结 点 ,输出 层 是 2 个 结 点 ,中 间 有 4 层 隐 含 层 ,每 层 10 个 结 点 ; 第 二 个 参数 是 学 习 步 长 ; 
第 三 个 参数 是 动量 系数 。 在 图 9-8 中 ,用 前 4 条 结果 来 检验 4 条 样本 数据 ,最 后 一 条 为 预测 
数据 (3,1) 的 结果 。 
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本 章 首先 介绍 了 生物 与 人 工 神 经 元 模型 ,然后 简单 列举 了 主要 的 神经 网 络 模型 ,重点 剖 
prf BP 算法 ,阐述 了 它 的 原理 结构. 工作 过 程 。 本 章 还 列举 了 一 个 简单 的 实例 ,使 读者 了 
解 BP 算法 的 具体 工作 过 程 ,最 后 介绍 了 BP 算法 的 特点 以 及 应 用 。 


思 考 B 


. 讨论 BP 神经 网 络 处 理 分 类 问题 的 原理 ,并 举例 说 明 此 网 络 的 应 用 。 

. BP 神经 网 络 算法 的 优点 和 不 足 。 

. BP 神经 网 络 算法 的 学 习 过 程 。 

.对 如 图 9-9 所 示 的 BP 神经 网 络 ,学 习 系数 ?一 1, 各 点 的 阔 值 0 一 0。 作 用 函数 为 
x z221 


wn ee 


f(x) -1 
E. æi 


输入 样本 a = Dore —0 HD tH £i x x 的 期 望 输出 为 1, 对 于 第 & 次 学 习 得 到 的 权 值 分 别 
H wn k) —0 w E) —2 wa (E) 2 wig (k)=1, Ti OE) 91. T2 GO — 1 OR 0 k 次 和 k 十 1 次 
学 习 得 到 的 输出 结 点 值 = CR) 和 x(k 十 1)( 写 出 计算 公式 和 计算 过 程 ) 。 
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图 9-9 BP 神经 网 络 
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第 10 章 决策 树 分 类 算法 





10.1 基本 概念 


10.1.1 决策 树 分 类 算法 简介 


从 数据 中 生成 分 类 器 的 一 个 特别 有 效 的 方法 是 生成 一 棵 决策 树 (Decision Tree) 。 决 策 
树 表示 方法 是 应 用 最 广泛 的 迎 辑 方法 之 一 , 它 从 一 组 无 次 序 .无 规则 的 事例 中 推理 出 决策 树 
表示 形式 的 分 类 规则 。 决 策 树 分 类 方法 采用 自 顶 向 下 的 递归 方式 ,在 决策 树 的 内 部 结 点 进 
行 属性 值 的 比较 ,根据 不 同 的 属性 值 判断 从 该 结 点 向 下 的 分 支 ,在 决策 树 的 叶 结 点 得 到 结 
论 。 所 以 ,从 决策 树 的 根 到 叶 结 点 的 一 条 路 径 就 对 应 着 一 条 合 取 规 则 , 整 棵 决策 树 就 对 应 着 
一 组 析 取 表达 式 规则 。 

基于 决策 树 的 分 类 方法 的 一 个 最 大 的 优点 就 是 它 在 学 习 过 程 中 不 需要 使 用 者 了 解 很 多 
背景 知识 ,这 同时 也 是 它 的 最 大 缺点 ,只 要 训练 样本 能 够 用 属性 -结论 式 表示 出 来 ,就 能 使 用 
该 算法 来 学 习 。 
决策 树 是 一 个 类 似 于 流程 图 的 树 结构 ,其 中 - 

每 个 内 部 结 点 表示 在 一 个 属性 上 的 测试 ,每 个 分 T 
支 代表 一 个 测试 输出 ,而 每 个 树叶 结 点 代表 类 或 
student? credit-rating? 
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表示 ,而 树叶 结 点 用 椭圆 表示 ,为 了 对 未 知 的 样 图 10-1 一 棵 典型 的 决策 树 

本 分 类 ,样本 的 属性 值 在 决策 树 上 测试 。 决 策 树 

从 根 到 叶 结 点 的 一 条 路 径 就 对 应 着 一 条 合 取 规则 ,因此 决策 树 容易 转换 成 分 类 规则 。 
决策 树 是 应 用 非常 广泛 的 分 类 方法 ,目前 有 多 种 决策 树 方法 ,例如 ,ID3、CN2、SLIQ、 

SPRINT 等 ,下 面 先 介绍 决策 树 分 类 的 基本 核心 思想 ,然后 再 详细 介绍 ID3 和 C4. 5 决策 树 

方法 。 

10.1.2 决策 树 基 本 算法 概述 


决策 树 分 类 算法 通常 分 为 两 个 步骤 : 决策 树 生成 和 决策 树 修剪 。 
1. 决策 树 生成 算法 
决策 树 生 成 算法 的 输入 参数 是 一 组 带 有 类 别 标记 的 样本 ,输出 是 构造 一 棵 决策 树 ,该 树 
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可 以 是 一 棵 二 叉 树 或 多 叉 树 。 二 叉 树 的 内 部 结 点 ( 非 叶 子 结 点 ) 一 般 表 示 为 一 个 逻辑 判断 ， 
如 形式 为 (a; 二 vi) 的 逻辑 判断 ,其 中 a; 是 属性 ,ww 是 该 属性 的 属性 值 , 树 的 边 是 逻辑 判断 的 
分 支 结果 。 多 叉 树 的 内 部 结 点 是 属性 , 边 是 该 属性 的 所 有 取 值 ,有 几 个 属性 值 ,就 有 几 条 边 ， 
树 的 叶子 结 点 都 是 类 别 标记 。 构 造 决 策 树 的 方法 是 采用 自 上 而 下 的 递归 方法 ,其 思路 如 算 
ik 10.1 所 示 。 

【算法 10.1】 Generate_decision_tree( 决 策 树 生 成 算法 ) 

输入 : 训练 样本 samples, 由 离散 值 属性 表示 ; 候选 属性 的 集合 attribute list; 

输出 : 一 棵 决策 树 (由 给 定 的 训练 数据 产生 一 棵 决策 树 ) 。 

(1) 创建 结 点 N。 

(2) 如 果 samples 都 在 同一 个 类 C, 则 返回 N 作为 叶 结 点 ,以 类 C 标记 ,程序 结束 。 

(3) 如 果 attribute_list 为 空 , 则 返回 N 作为 叶 结 点 ,标记 为 samples 中 最 普通 的 类 , 程 
序 结束 。 

(4) 选择 attribute_list 中 具有 最 高 信息 增益 的 属性 test_attribute。 

(5) 标记 结 点 N 为 test_attribute。 

(6) 对 于 test. attribute 中 的 每 一 个 已 知 值 ai, 由 结 点 N 生长 出 一 个 条 件 为 test 
attribute=a; 的 分 支 。 

(7) 设 s; 是 samples 中 test. attribute—a; 的 样本 的 集合 ,如 果 s; 为 空 , 则 加 上 一 个 树 
叶 , 标 记 为 samples 中 最 普通 的 类 ; 否则 ,加 上 一 个 由 Generate_decision_tree(s;,attribute__ 
listrtest_attribute) 返 回 的 结 点 。 

以 代表 训练 样本 的 单个 结 点 开始 构建 树 ( 对 应 算法 10. 1 的 步骤 (1)); 如 果 样 本 都 在 同 
一 个 类 , 则 该 结 点 成 为 树叶 ,并 使 用 该 类 标记 (步骤 (2) 和 (3)); 否则 ,算法 使 用 称 为 信息 增 
益 的 度量 作为 启发 信息 ,选择 能 够 最 好 地 将 样本 分 类 的 属性 (步骤 (4)) ,该 属性 成 为 该 结 点 
的 “测试 ?或 “判定 ”属性 (步骤 (5))。 值 得 注意 的 是 ,在 这 类 算法 中 ,所 有 的 属性 都 是 取 离 散 
值 的 ,如 果 是 连续 值 的 属性 必须 离散 化 。 对 测试 属性 的 每 个 已 知 的 值 ,创建 一 个 分 支 , 并 据 
此 划分 样本 (步骤 (6) 一 (7)) 。 算 法 使 用 同样 的 过 程 ,递归 地 形成 每 个 划分 上 的 样本 决策 树 ， 
一 旦 一 个 属性 出 现在 一 个 结 点 上 ,就 不 必 考 虑 该 结 点 的 任何 后 代 ( 步 又 (7)) ,递归 划分 步骤 ， 
当下 列 条 件 之 一 成 立时 停止 。 

(1) 给 定 结 点 的 所 有 样本 属于 同一 类 (步骤 (2) 和 (3)) 。 

(2) 没有 剩余 属性 可 以 用 来 进一步 划分 样本 ,采用 多 数 表 决 ( 步 骤 (3))。 这 涉及 将 给 定 
的 结 点 转换 成 树叶 ,并 用 samples 中 的 多 数 所 在 的 类 别 标记 它 , 另 一 种 方式 是 可 以 存放 结 点 
样本 的 分 布 。 

(3) 分 支 test_attribute 一 ai 没有 样本 。 在 这 种 情况 下 ,以 samples 中 的 多 数 类 创建 一 
个 树叶 (步骤 (7)) 。 

构造 好 的 决策 树 的 关键 在 于 如 何 选择 好 的 逻辑 判断 或 属性 。 对 于 同样 一 组 样本 ,可 以 
有 很 多 决策 树 符 合 这 组 样本 。 研 究 结果 表明 ,一 般 情 况 下 , 树 越 小 , 则 树 的 预测 能 力 越 强 。 
要 构造 尽 可 能 小 的 决策 树 , 关 键 在 于 选择 合适 的 产生 分 支 的 属性 。 由 于 构造 最 小 的 树 是 
NP- 难 问题 ,因此 只 能 采用 启发 式 策略 来 进行 属性 选择 。 属 性 选择 依赖 于 对 各 种 样本 子 集 
的 不 纯度 (impurity) 度 量 方法 。 不 纯度 度量 方法 包括 信息 增益 (information gain)、 信 息 增 
益 比 (gain ratio) ,Gini-index、 距 离 度量 (distance measure) 、J-measure、G 统计 、x? 统计 、 证 
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dE BU (weight of evidence)、 最 小 描述 长 度 (MLP) | IE Z iX Cortogonality measure) 、 相 关 度 
(relevance) fil Relief 等 。 不 同 的 度量 有 不 同 的 效果 ,特别 是 对 于 多 值 属性 ,选择 合适 的 度量 
方法 对 于 结果 的 影响 是 很 大 的 。 

2. 决策 树 修改 算法 

现实 的 世界 的 数据 一 般 不 可 能 是 完美 的 ,可 能 某 些 属性 字段 上 缺 值 (missing values). 
可 能 缺少 必需 的 数据 而 造成 数据 不 完整 ; 也 可 能 数据 是 不 准确 .含有 噪声 甚至 是 错误 的 ,在 
此 主要 讨论 噪声 问题 。 基 本 的 决策 树 构 造 法 没有 考虑 噪声 ,因此 生成 的 决策 树 完 全 与 训练 
样本 拟 合 ,在 有 噪声 情况 下 ,完全 拟 合 将 导致 过 分 拟 合 Coverfitting), 即 分 类 模型 对 训练 数据 
的 完全 拟 合 反 而 使 分 类 模型 对 现实 数据 的 分 类 预测 性 能 降低 。 剪 枝 是 一 种 克服 噪声 的 基本 
技术 ,同时 它 也 能 使 树 得 到 简化 而 变 得 更 容易 理解 ,有 下 列 两 种 基本 的 剪 枝 策略 。 

(D 预先 剪 枝 (pre-pruning) 

在 生成 树 的 同时 决定 是 继续 对 不 纯 的 训练 子 集 进 行 划分 还 是 停止 。 

(2) 后 前 枝 (post-pruning) 

一 种 拟 合 - 化 简 (fitting-and-simplifying) 的 两 阶段 方法 。 首 先生 成 与 训练 数据 完全 拟 合 
的 一 棵 决策 树 , 然 后 从 树 的 叶子 开始 剪 枝 , 逐 步 向 根 的 方向 剪 。 剪 枝 时 要 用 到 一 个 测试 数据 
集合 (tuning set 或 adjusting set) ,如 果 存 在 某 个 叶子 剪 去 后 测试 集 上 的 准确 度 或 其 他 测试 
度 不 降低 , 则 剪 去 该 叶子 ; 否则 ,停止 。 

从 理论 上 讲 , 后 剪 枝 好 于 预先 剪 枝 , 但 计算 复杂 度 大 。 剪 枝 过程 中 一 般 要 涉及 一 些 统计 
参数 或 冰 值 (如 停机 阔 值 ) 。 值 得 注意 的 是 , 剪 枝 并 不 是 对 所 有 的 数据 集 都 好 ,就 像 是 小 决策 
树 并 不 是 最 好 (具有 最 大 的 预测 率 ) 的 决策 树 一 样 。 从 某 种 意义 上 讲 , 剪 枝 也 是 一 种 偏向 
(Bias) ,对 有 些 数据 效果 好 而 对 另外 一 些 数据 则 效果 差 。 


10.2 决策 树 分 类 算法 一 一 ID3 算法 原理 


10.2.1 ID3 算法 原理 


基本 决策 树 构造 算法 是 一 个 贪心 算法 , 它 采 用 自 项 向 下 递归 的 方法 构造 决策 树 ,著名 的 
决策 树 算法 ID3 算法 的 基本 策略 如 下 。 

(1) 树 以 代表 训练 样本 的 单个 结 点 开始 。 

(2) 如 果 样 本 都 在 同一 个 类 中 , 则 这 个 结 点 成 为 树叶 结 点 并 标记 为 该 类 别 。 

(3) 否则 算法 使 用 信息 炉 ( 称 为 信息 增益 ) 作 为 启发 知识 来 帮助 选择 合适 的 将 样本 分 类 
的 属性 ,以 便 将 样本 集 划 分 为 若干 子 集 ,该 属性 就 是 相应 结 点 的 “测试 ”或 “判定 ”属性 ,同时 
所 有 属性 应 当 是 离散 值 。 

(4) 对 测试 属性 的 每 个 已 知 的 离散 值 创 建 一 个 分 支 ,并 据 此 划分 样本 。 

(5) 算法 使 用 类 似 的 方法 ,递归 地 形成 每 个 划分 上 的 样本 决策 树 , 一 个 属性 一 旦 出 现在 
某 个 结 点 上 ,那么 它 就 不 能 再 出 现在 该 结 点 之 后 所 产生 的 子 树 结 点 中 。 

(6) 整个 递归 过 程 在 下 列 条 件 之 一 成 立时 停止 。 

。 给 定 结 点 的 所 有 样本 属于 同一 类 ; 

。 没有 剩余 属性 可 以 用 来 进一步 划分 样本 ,这 时 候 该 结 点 作为 树叶 ,并 用 剩余 样本 中 





所 出 现 最 多 的 类 型 作为 叶子 结 点 的 类 型 ; 
。 某 一 分 支 没有 样本 ,在 这 种 情况 下 以 训练 样本 集中 占 多 数 的 类 创建 一 个 树叶 。 
ID3 算法 的 核心 是 在 决策 树 各 级 结 点 上 选择 属性 时 ,用 信息 增益 作为 属性 的 选择 标准 ， 
以 使 得 在 每 一 个 非 结 点 进行 测试 时 ,能 获得 关于 被 测试 记录 最 大 的 类 别 信息 。 


10.2.2 MÈ EIS 


为 了 寻找 对 样本 进行 分 类 的 最 优 方 法 ,我 们 要 做 的 工作 就 是 使 对 一 个 样本 分 类 时 需要 
问 的 问题 最 少 ( 即 树 的 深度 最 小 )。 因 此 ,需要 某 种 函数 来 衡量 哪些 问题 将 提供 最 为 平衡 的 
划分 ,信息 增益 就 是 这 样 的 函数 之 一 。 

WS 是 训练 样本 集 , 它 包括 个 类 别 的 样本 ,这 些 类 别 分 别 用 Ci Co Cs 表示 ,那么 
S fl fli entropy) 8X EHI EB (3 L7 


entropy(S) 一 一 > pilog: pi (10-1) 
i-o 


其 中 ,pi 表示 类 C; 的 概率 。 如 果 将 S 中 的 nn 类 训练 样本 看 成 n 种 不 同 的 消息 ,那么 S I 
表示 对 每 一 种 消息 编码 需要 的 平均 比特 数 , |S| Xentropy(S) 就 表示 对 S 进行 编码 需要 的 
比特 数 ,其 中 ,|S| 表 示 S 中 的 样本 数目 。 如 果 n=2.pi=p2=0.5. IBA 
entropy(S) 一 一 0. 5log;0. 5 — 0. 51og;0.5 = 1 
如 果 n=2, pi=0. 67, p: =0. 33 ,那么 
entropy(S) =— 0. 671og;0. 67 一 0.33log:0. 33 = 0. 92 
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JE. 8T BA E 29 UII 2 4E (I AS EE RE Cimpurity) ff] — 4S EE fit RRA, AS Pl RE RT, RR UL 
BRS HS y c R SU t EE Xa + Jes D FE As P] T E et Ato. BO E AT PI A ER] e f o 

从 直观 上 ,在 没有 任何 信息 的 情况 下 ,如 果 要 猜测 一 个 样本 的 类 别 ,我 们 会 倾向 于 指定 
该 样本 以 0.5 的 概率 属于 类 别 Ci ,并 以 同样 的 0. 5 概率 属于 类 别 Co ,也 就 是 说 ,在 没有 反对 
信息 存在 的 情况 下 .我们 会 假设 先 验 概率 相等 ,此 时 的 烂 为 1。 但 是 , 当 我 们 已 知 C1 的 样本 
数 占 6796. Cs 的 样本 数 占 33% 时 , 粹 变 为 0.92, 也 就 是 说 ,信息 已 经 有 了 0. 08 比特 的 增加 。 

当 样 本 属于 每 个 类 的 概率 相等 时 , 即 对 任意 i 有 1.0 
pi 三 1/n WE. EIR YR BA logon. ii 4 rfi FE 
ASF AREY SAO, SE ft TE mo 3r T 0— 





& 
logen 之 间 。 图 10-2 是 "一 2 nbi AK AP FE HY HE s 
户 从 0 到 1 变化 时 的 曲线 。 ao 
设 属性 A 将 S 划分 成 m 份 ,根据 A 划分 的 子 集 
的 焙 或 期 望 信息 由 下 式 给 出 
entropy(S,A) 一 2 一 entropy(S;) (10-2) 0.0 Es 1.0 


其 中 ,Si 表示 根据 属性 A 划分 的 S 的 第 i 个 子 集 ,|S| 图 10-2 n=2 mira MERC 
和 |Si| 分 别 表示 S ALS; 中 的 样本 数目 。 信 息 增 益 用 
来 衡量 炉 的 期 望 减少 值 ,因此 ,使 用 属性 A 对 S 进行 划分 获得 的 信息 增益 为 

gain( S. A) = entropy(S) — entropy(S.A) (10-3) 
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gain(S,A) 是 指 因为 知道 属性 A WE SE CIR REC JUL FE f. gain CS A REX, ULL de PE I 
试 属性 A AA OE ERRE. DS Je. ARE eol HU. EEG (IUBE IET Sg SC ei b 
JR ai ek SB E D] EBRA., E AMAF EA EE, o AR REA Ji E BEC (IT e b 
增益 大 小 排序 ,获得 最 大 信息 增益 的 属性 被 选择 为 分 支 属 性 。 

































































表 10-1 训练 样本 
outlook temperature humidity windy play 
sunny hot high false no 
sunny hot high true No 
overcast hot high false Yes 
rainy mild high false Yes 
rainy cool normal false Yes 
rainy cool normal true No 
overcast cool normal true Yes 
sunny mild high false No 
sunny cool normal false Yes 
rainy mild normal false Yes 
sunny mild normal true Yes 
overcast mild high true Yes 
overcast hot normal false Yes 
rainy mild high true No 














在 表 10-1 的 训练 样本 中 ,属于 类 yes 的 样本 有 9 个 ,属于 类 no 的 样本 有 5 个 ,于 是 ,对 
给 定 样本 分 类 所 需 的 期 望 信息 为 











s 9 9 5 5 
entropy (S) qq log: 14 11108 14 0.94 


AH 0. 940 反映 了 对 样本 集合 S DRWIN fü sg TE. tH HE RP FE AS 2) 28 LER FL. E 
越 小 ,划分 的 纯度 越 高 ,对 样本 分 类 的 不 确定 性 越 低 。 一 个 属性 的 信息 增益 ,就 是 用 这 个 属 
性 对 样本 分 类 而 导致 的 炉 的 期 望 值 下 降 。 因 此 ,ID3 算法 在 每 一 个 结 点 选择 取得 最 大 信息 
增益 的 属性 。 

下 面 分 别 对 属性 outlook , temperature, humidity 和 windy 计算 根据 这 些 属性 对 训练 样 
本 进行 划分 得 到 的 信息 增益 。 

设 训练 样本 集 为 S,outlook 将 S 划分 成 三 个 部 分 , 即 outlook = sunny, outlook = 
overcast 和 outlook = rainy, RAIH S, 来 表示 属性 值 为 v HIPER R, FE | Souny | 5. | Sovercast | = 
4, | Say| 一 5, 而 在 So 中 ,类 yes 的 样本 有 2 个 ,类 no 的 样本 有 3 T «Saas HIR 73 














2 2 3 3 
entropy (Syunny) 5 log; 5 log; 5 0.971 


5 
同 理 ,可 以 计算 出 Soverast RI Sus, B AP A 73 0 和 0.971, 因 此 ,使 用 属性 outlook 划分 S 
的 期 望 信息 为 


-5 E 3, = 
entropy(S.outlook) = i4 X0.971 十 14 X0 十 14 x 0.971 = 0.694 





outlook 的 信息 增益 为 


gain(S.outlook) = 0. 940 — 0. 694 = 0. 246 
[E] Fi BY 7. gain( S temperature) —0. 151, gain(S,humidity) —0. 048, gain(S, windy) = 
0. 029 ,因为 属性 outlook 的 信息 增益 最 大 ,所 以 选择 属性 outlook 作为 根 结 点 的 测试 属性 ， 
并 对 应 每 个 值 ( 即 sunny,overcast,rainy) 在 根 结 点 向 下 创建 分 支 。 


10.2.3 ID3 算法 


【算法 10.2】 ID3 算法 。 

(1) 初始 化 决策 树 工 ,使 其 只 包含 一 个 树 根 结 点 (X,Q) ,其 中 X 是 全 体 样本 集 ,Q 为 全 
体 属 性 集 。 

(2) if( 荆 中 所 有 叶 结 点 (X',Q') 都 满足 XX 属于 同一 类 或 Q' 为 空 ) ,then 算法 停止 。 

(3) else { 任 取 一 个 不 具有 (2) 中 所 述 状 态 的 叶 结 点 (X',Q')。 

(4) for each Q' 中 的 属性 A,do 计算 信息 增益 gain(A,X')。 

(5) 选 择 具有 最 高 信息 增益 的 属性 B 作为 结 点 (X',Q') 的 测试 属性 。 

(6) for each B 的 取 值 b;,do Jii e OX" ,Q' ) 伸 出 分 支 ,代表 测试 输出 B=4;; 求 得 X 
"P B 值 等 于 4; 的 子 集 Xi ,并 生成 相应 的 叶 结 点 (X ,Q' 一 {B))。 

CD 转 (2)。 














10.3 ID3 算法 实例 分 析 


【 例 10.1】 X 10-2 给 出 了 一 个 可 能 带 有 噪音 的 数据 集合 。 它 有 4 个 属性 , 即 Outlook, 
Temperature,Humidity 和 Windy。 它 们 分 别 为 No 和 Yes 两 类 。 通 过 ID3 算法 构造 决策 
树 将 数据 进行 分 类 。 

表 10-2 样本 数据 集 

































































属 性 Outlook Temperature Humidity Windy 类 

1 Overcast Hot High Not 

2 Overcast Hot High Very 

3 Overcast Hot High Medium 
4 Sunny Hot High Not 

5 Sunny Hot High Medium 
6 Rain Mild High Not 

rj Rain Mild High Medium 
8 Rain Hot Normal Not 

9 Rain Cool Normal Medium 
10 Rain Hot Normal Very 

11 Sunny Cool Normal Very 

12 Sunny Cool Normal Medium 
13 Overcast Mild High Not 

14 Overcast Mild High Medium 
15 Overcast Cool Normal Not 

16 Overcast Cool Normal Medium 
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续 表 

属 性 Outlook Temperature Humidity Windy 类 

17 Rain Mild Normal Not No 

18 Rain Mild Normal Medium No 

19 Overcast Mild Normal Medium Yes 

20 Overcast Mild Normal Very Yes 

21 Sunny Mild High Very Yes 

22 Sunny Mild High Medium Yes 

23 Sunny Hot Normal Not Yes 

24 Rain Mild High Very No 

















解 : 因为 初始 时 刻 属于 Y 类 和 NN 类 的 实例 个 数 均 为 12 AS. Br LI he B 229 (1 EA 
entropy( X) =— lig 12 ig 1 =j 
如 果 选 取 Outlook 属性 作为 测试 属性 ,根据 式 (10-2) . EISE (1 A (1-408 73 








9 4, 4 52 S 8 1 1 Ta? 
entropy( X ,Outlook) si 9 1g 9 9 lg 9 )+ 24l gig 8 8 lg s] 
Ti 5 x 
tabo ie — 0) = 0 4643 


如 果 选 取 Temperature 属性 作为 测试 属性 , 则 有 


人 le s = s )+ n nh n m je i) 








entropy (X. Temp) 








Sd. 4 d.d 
Fail pls s les) 0.6739 


如 果 选 取 Humidity 属性 作为 测试 属性 , 则 有 

12/ 4,4. 8,8 
zi 12812 138 1 
— 0. 8183 

如 果 选 取 Windy 属性 作为 测试 属性 , 则 有 


8 4 4 4 4 6 3 3 3 3 
entropy( X. Windy) zl glg 8 gig 8 )+ 5a ( ra 6 ra 6 ) 





entropy( X . Humidity) )+ A 4 1 4 7 1 ) 


2a\ 12512 1212 








a oew — 10619) 1 

可 以 看 出 ,entropy( 义 ,Outlook) 最 小 , 即 有 关 Outlook 的 信息 对 于 分 类 有 最 大 的 帮助 ， 
提供 最 大 的 信息 量 , 即 gain(X,Outlook) 最 大 。 所 以 应 该 选择 Outlook 属性 作为 测试 属性 。 
还 可 以 看 出 “entropy(X) 王 entropy(X.Windy)” 最 小 , 即 gain(X.Windy) 二 0, 有 关 Windy 
的 信息 不 能 提供 任何 分 类 信息 。 选 择 Outlook 作为 测试 属性 之 后 ,将 训练 实例 分 为 3 个 子 
集 , 生 成 3 个 叶 结 点 ,对 每 个 叶 结 点 依次 利用 上 面 过 程 则 生成 如 图 10-3 所 示 的 决策 树 。 

【 例 10.2] 如 表 10-3 所 示 为 一 个 商场 顾客 数据 库 ( 训 练 样本 集合 ) 属 性。 样本 集合 的 
类 别 属 性 为 buy computer, 该 属性 有 两 个 不 同 取 值 , 即 {yes,no}, 因 此 就 有 两 个 不 同 的 类 别 
Gn—2), Wt Ci 对 应 yes 类 别 ,Cs 对 应 no KH. C, 类 别 包 含 9 个 样本 ,Cs 类 别 包含 5 个 
样本 。 


+ 








图 10-3 生成 的 决策 树 


表 10-3 一 个 商场 顾客 数据 库 ( 训 练 样本 集合 ) 



























































rid age income student credit rating buy computer 
1 <30 High No Fair No 

2 <30 High No Excellent No 

3 30~40 High No Fair Yes 

4 >40 Medium No Fair Yes 

5 >40 Low Yes Fair Yes 

6 >40 Low Yes Excellent No 

7 30~40 Low Yes Excellent Yes 

8 <30 Medium No Fair No 

9 <30 Low Yes Fair Yes 

10 >40 Medium Yes Fair Yes 

11 <30 Medium Yes Excellent Yes 

12 30~40 Medium No Excellent Yes 
13 30~40 High Yes Fair Yes 
14 >40 Medium No Excellent No 

解 : 为 了 计算 每 个 属性 的 信息 增益 ,首先 计算 出 所 有 (对 一 个 给 定 样本 进行 分 类 所 需 


要 ) 的 信息 量 ,具体 计算 过 程 如 下 。 


1Giss) = 15) Flog: 9 5 


5 log, 
14 14 14 

Borg EE ECSET PES GG BE. (BLUE: M I TE age 开始 ,根据 属性 age 每 个 取 值 在 
C, 类 别 和 Cs 类 别 中 的 分 布 , 就 可 以 计算 出 每 个 分 布 所 对 应 的 信息 。 

对 于 age="<30": 542.55 3.1601 552) 70.971. 

对 于 age "30—40" 524.52 —0.IGn +521) 70, 

对 于 age—"740"; 543.555 =2,1( 51 +52) =0. 971, 

然后 就 可 以 根据 属性 age 对 样本 集合 进行 划分 ,获得 对 一 个 数据 对 象 进 行 分 类 而 需要 
FY fes R88 > Eb EC SCRI A JS HE age 对 样本 集合 进行 划分 所 获得 的 信息 增益 为 
Gain(age) = I(si,s2) — E(age) = 0. 245 








0.94 




















类 似 可 以 获得 
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Gain(income) — 0. 0029 

Gain(student) — 0. 151 

Gain(credit rating) — 0.048 

显然 ,选择 属性 age 所 获得 的 信息 增益 最 大 ,因此 被 作为 测试 属性 用 于 产生 当前 分 支 结 

点 。 这 个 新 产生 的 结 点 被 标记 为 age; 同时 ,根据 属性 age 的 3 个 不 同 取 值 ,产生 3 个 不 同 
的 分 支 ,当前 的 样本 集合 被 划分 为 3 个 子 集 ,如 图 10-4 所 示 。 其 中 , 落 入 age 一 "30 一 40" 子 
集 的 样本 类 别 均 为 Cy 类 别 , 因 此 在 这 个 分 支 末端 产生 一 个 叶 结 点 并 标记 为 C: 类 别 。 根 据 
如 表 10-3 所 示 的 训练 样本 集合 ,最 终 产生 一 个 如 图 10-4 所 示 的 决策 树 。 


income | student | credit rating | class 
high no fair no 


















































high no excellent no 

medium | no fair no | 

low yes fair yes | 

medium | yes excellent yes | 
<30 

income | student | credit rating | class ] 

high no fair yes | 

30~40 

low yes excellent yes 

medium | no excellent yes 

high yes fair yes | 
>40 












income | student | credit rating 


no fair yes 





yes fair yes 





yes excellent no 





fair 
excellent 


图 10-4 选择 属性 age 产生 相应 分 支 的 示意 描述 














从 图 10-4 中 可 以 看 出 ,age 一 "30 一 40 ”的 子 集 样 本 的 类 别 相同 , 均 为 Yes, 故 该 结 点 将 
成 为 一 个 叶子 结 点 ,并 且 其 类 别 标记 为 Yes。 

接 下 来 ,对 age 结 点 的 不 纯 分 支 子 结 点 进一步 完成 与 上 述 步 又 类 似 的 计算 ,最 后 得 到 的 
决策 树 如 图 10-5 所 示 。 


age 
<30 >40 
30~40 
student yes credit rating 
Yes f Fair / Ne 
Yes No Yes No 


10-5 是 否 买 电脑 的 分 类 与 预测 决策 树 示例 


10.4 ID3 算法 的 特点 及 应 用 


10.4.1 ID3 算法 的 特点 


ID3 算法 的 优点 如 下 。 

(1) 算法 的 理论 清晰 。 

(2) 方法 简单 。 

(3) 学 习 能 力 较 强 。 

ID3 算法 的 缺点 如 下 。 

(1) 信息 增益 的 计算 依赖 于 特征 数目 较 多 的 特征 ,而 属性 取 值 最 多 的 属性 并 不 一 定 
最 优 。 

(2) ID3 是 非 递 增 算法 。 

(3) ID3 是 单 变量 决策 树 (在 分 支 结 点 上 只 考虑 单个 属性 ) ,许多 复杂 概念 的 表达 困难 ， 
属性 相互 关系 强调 不 够 ,容易 导致 决策 树 中 子 树 的 重复 或 有 些 属性 在 决策 树 的 某 一 路 径 上 
被 检验 多 次 。 

(4) 抗 噪 性差 。 训 练 例子 中 正 例 和 反例 的 比例 较 难 控制 。 


10.4.2 ID3 算法 的 应 用 


1, ID3 算法 在 汽车 售后 服务 中 的 应 用 

据 调 查 ,国外 汽车 的 80% 的 利润 是 由 售后 服务 得 到 ,而 整 车 销售 只 占 总 利润 的 20%, 因 
此 很 多 公司 都 努力 提高 汽车 售后 服务 水 平 。 而 随 着 数据 库 的 多 年 使 用 ,在 日 益 竞争 激烈 的 
汽车 行业 里 ,汽车 售后 服务 商 存 有 大 量 的 客户 数据 。 如 何 提高 汽车 售后 服务 水 平 ,发 现 客户 
的 需求 和 服务 中 的 一 些 规律 ,这 些 将 成 为 汽车 售后 服务 企业 关心 和 重视 的 问题 。 鉴 于 此 种 
情况 ,利用 数据 挖掘 技术 ID3 算法 ,根据 汽车 售后 服务 业 客 户 消费 行为 特征 对 客户 进行 细 分 
及 客户 特征 分 析 , 把 大 量 的 客户 按照 标准 分 成 不 同 的 类 ,最 终 根据 客户 的 类 别 属 性 特征 ,为 
不 同 的 类 型 的 客户 制定 不 同 营销 策略 ,从 而 为 企业 获得 较 高 的 利润 。 

2. ID3 算法 在 ATM 选 点 预测 系统 中 的 应 用 

自动 柜员 机 ATM 作为 银行 为 客户 提供 服务 的 窗口 ,其 快捷 有 效 的 自助 方式 ,早已 被 
内 金融 机 构 及 客户 所 广泛 认可 。 在 中 国 , 金 融 自 助 服务 具有 巨大 的 增长 潜力 。 金 融 业 在 布 
放 ATM 时 需要 在 满足 用 户 需要 的 基础 上 保证 银行 收益 最 大 化 ,最 大 限度 地 提高 ATM 和 
用 率 。 而 现 有 ATM 的 布点 并 不 完全 合理 。 有 些 区 域 ATM 网 点 的 密度 过 大 ,很 容易 加 局 
竞争 ,造成 效率 低下 ; 有些 区 域 ATM 网 点 的 密度 反而 过 小 ,有 些 大 银行 在 一 些 区 域 存在 着 
网 点 空白 区 ,不 能 为 客户 提供 更 好 的 服务 。 因 此 如 何 合理 和 有 效 地 布 放 ATM 已 成 为 银行 
有 待 解 决 的 问题 。 利 用 数据 挖掘 技术 和 面向 属性 归纳 以 及 分 类 决策 树 的 ID3 算法 ,可 以 挖 
掘 以 往 积累 的 ATM 部 署 区 域 信息 .发现 累计 取款 量 大 、 次 数 多 和 查询 次 数 高 的 ATM 部 署 
点 的 特征 。 通 过 分 析 数 据 , 建 立 选 点 模型 ,可 以 找 出 利用 率 高 的 ATM 地 区 的 特征 ,可 作为 
金融 机 构 部 署 ATM 的 参考 。 
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10.5 ID3 算法 源 程 序 结 果 分 析 


相关 程序 和 实验 数据 可 从 github 中 下 载 ,网 址 为 https://github. com/guanyaol/ 


desiciontree-ID3. git。 


package Decisiontree. ID3; 


import java. io. BufferedReader; 
import java. io. File; 

import java. io. FileReader; 
import java. io. FileWriter; 
import java. io. IOException; 
import java. util. ArrayList; 
import java. util. Iterator; 
import java. util. LinkedList; 
import java. util. List; 

import java. util. regex. Matcher; 
import java. util. regex. Pattern; 


import org. dom4j. Document; 

import org. dom4j. DocumentHelper; 
import org. dom4j. Element; 

import org. dom4j. io. OutputFormat; 
import org. dom4j. io. XMLWriter; 





public class ID3 { 
private ArrayList < String> attribute = new ArrayList < String>();// 存 储 属 性 的 名 称 
private ArrayList < ArrayList < String >> attributevalue = new ArrayList < ArrayList 


< String >>() ; // 存 储 每 个 属性 的 取 值 
private ArrayList < String[]> data = new ArrayList < String[ ]>(); // 原 始 数 据 
int decatt; // 决 策 变量 在 属性 集中 的 索引 


public static final String patternString = "@attribute(. « )[(](. * ?)[)]"; 
Document xmldoc; 
Element root; 
public ID3() { 
xmldoc - DocumentHelper.createDocument(); 
root = xmldoc.addElement("root"); 
root. addElement("DecisionTree").addAttribute("value", "null"); 
j 
// 读 取 arff 文件 ,给 attribute attributevalue,data 赋值 
public void readARFF(File file) { 
try { 
FileReader fr = new FileReader( file); 
BufferedReader br = new BufferedReader(fr) ; 
String line; 
Pattern pattern = Pattern. compile(patternString) ; 
while ((line = br.readLine()) != null) { 
Matcher matcher = pattern. matcher( line); 
if (matcher. find()) { // i&Qattribute 


attribute. add(matcher.group(1).trim()); 
String[ ] values = matcher. group(2).split(","); 
ArrayList <String>al = new ArrayList < String >(values. length); 
for (String value : values) { 
al. add(value. trim()); 
} 
attributevalue. add(al) ; 
} else if (line. startsWith("@data")) { // 读 @data 
while ((line = br. readLine()) != null) { 
if (line == "") 
continue; 
String[] row = line. split(","); 
data. add( row) ; 
} 
} else { 
continue; 


i 
br.close(); 
} catch ( IOException el) { 
el. printStackTrace( ) ; 
} 
} 
// 设 置 决策 变量 
public void setDec(int n) { 
if (n<0 || n>= attribute. size()) { 
System. err. println(" 决 策 变量 指定 错误 。"); 
System. exit(2); 
} 
decatt = n; 
} 
public void setDec(String name) { 
int n = attribute. indexOf (name) ; 
setDec(n) ; 
} 
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public double getEntropy(int[] arr) ( 
double entropy = 0.0; 
int sum = 0; 
for (inti = 0; i«arr.length; i++) { 
entropy -= arr[i] * Math.log(arr[i] + Double.MIN VALUE)/ Math. log(2); 
sum += arr[i]; 
} 
entropy += sum * Math. log(sum + Double. MIN VALUE) / Math. log(2); 
entropy / = sum; 
return entropy; 
} 
// 给 一 个 样本 数组 及 样本 的 算术 和 , it EE A 
public double getEntropy(int[] arr, int sum) { 
double entropy = 0.0; 
for (int i = 0; i<arr. length; i++) { 
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entropy -= arr[i] * Math.log(arr[i] + Double.MIN VALUE) / Math. log(2); 
} 
entropy += sum + Math. log(sum + Double. MIN VALUE) / Math. log(2); 
entropy / = sum; 
return entropy; 
} 
public boolean infoPure(ArrayList < Integer > subset) { 
String value = data. get( subset. get(0))[decatt]; 
for (int i = 1; i< subset. size(); i++) { 
String next = data. get(subset. get( i))[decatt]; 
//equals 表示 对 象 内 容 相 同 , == 表示 两 个 对 象 指向 的 是 同一 片 内 存 
if (!value. equals(next) ) 
return false; 
} 
return true; 
} 
// 给 定 原始 数据 的 子 集 (subset 中 存储 行 号 ), 当 以 第 index A JB tE J £5 jM iE SECUS (0 fei E 
public double calNodeEntropy( ArrayList < Integer > subset, int index) { 
int sum = subset. size(); 
double entropy = 0.0; 
int[][] info = new int[attributevalue. get( index). size() ][ ]; 
for (int i = 0; i< info.length; i++) 
info[i] = new int[attributevalue. get(decatt).size()]; 
int[] count = new int[attributevalue. get (index). size()]; 
for (int i = 0; i< sum; i++) { 
int n = subset. get(i); 
String nodevalue = data. get(n)[ index]; 
int nodeind = attributevalue. get (index) . indexOf(nodevalue); 
count[ nodeind]++ ; 
String decvalue = data. get(n)[decatt]; 
int decind = attributevalue. get(decatt) . indexOf ( decvalue); 
info[nodeind] [decind]++; 
) 
for (int i = 0; i< info. length; i++) { 
entropy += getEntropy(info[i]) * count[i] / sum; 


} 

return entropy; 
, 
// 构 建 决策 树 


public void buildDT(String name, String value, ArrayList < Integer > subset, 
LinkedList < Integer> selatt) { 
Element ele = null; 
@SuppressWarnings("unchecked" ) 
List <Element > list = root.selectNodes("//" + name); 
Iterator <Element > iter = list. iterator(); 
while (iter. hasNext()) { 
ele = iter.next(); 
if (ele. attr ibuteValue("value") . equals(value) ) 
break; 
} 
if (infoPure(subset)) { 


ele. setText(data. get(subset. get(0))[decatt]); 
return; 
} 
int minIndex =- 1; 
double minEntropy = Double. MAX VALUE; 
for (int i = 0; i«selatt.size(); i++) { 
if (i == decatt) 
continue; 
double entropy = calNodeEntropy(subset, selatt.get(i)); 
if (entropy < minEntropy) ( 
minIndex = selatt.get(i); 
minEntropy = entropy; 


J 
String nodeName = attribute. get(minIndex) ; 


selatt. remove(new Integer(minIndex) ); 
ArrayList < String> attvalues = attributevalue. get (minIndex) ; 
for (String val : attvalues) { 

ele. addElement (nodeName) . addAttribute("value", val); 

ArrayList < Integer» al = new ArrayList < Integer >() ; 

for (int i = 0; i< subset. size(); i++) { 

if (data. get (subset. get(i))[minIndex].equals(val)) { 
al.add(subset. get(i)); 


i 
buildDT(nodeName, val, al, selatt); 


} 
// 把 xml 写 入 文件 
public void writeXML(String filename) { 
try { 
File file = new File(filename) ; 
if (!file.exists()) 
file.createNewFile(); 
FileWriter fw = new FileWriter(file); 
OutputFormat format - OutputFormat.createPrettyPrint(); 
XMLWriter output - new XMLWriter(fw, format); 
output. write(xmldoc) ; 
output. close(); 
} catch (IOException e) { 
System. out. println(e.getMessage()) ; 


} 
public static void main(String[] args) { 
ID3 inst = new ID3(); 
inst. readARFF( new File(System. getProperty("user. dir") 
+ "\\resource\\weather. nominal. arff")); 
//inst. readARFF (new 
//File("C:\\Users\\wang4\\Desktop\\weather. nominal. arff")); 
inst. setDec("play"); 
LinkedList < Integer > ll = new LinkedList < Integer >(); 


// 美 化 格式 
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for (int i = 0; i« inst.attribute.size(); i++) { 
if (i != inst. decatt) 
ll. add(i); 
} 
ArrayList < Integer > al = new ArrayList < Integer >(); 
for (int i = 0; i< imst.data.size(); i++) { 





al. add(i); 
i 
Systen. out. println(" === = esse"), 
inst. buildDT("DecisionTree", "null", al, 11); 


inst. writeXML( System. getProperty("user. dir") + "\\resource\\dt. xml"); 
return; 


} 
程序 运行 界面 如 图 10-6 所 示 。 


1 <?xml version-"1.0" encoding="UTF-8"?> 
2 


3 <root> 
49 <DecisionTree value="null"> 
se «outlook value="sunny"> 
6 «humidity value="high">no</humidity> 
7 <humidity value="normal">yes</humidity> 
8 </outlook> 
9 <outlook value-"overcast"»yesc/outlook» 
108 <outlook value="rainy"> 
11 «windy value="TRUE">no</windy> 
12 «windy value="FALSE">yes</windy> 
13 </outlook> 


14 </DecisionTree> 
15 </root> 
16 


图 10-6 ID3 程序 运行 结果 图 


10.6 决策 树 分 类 算法 一 一 C4.5 算法 原理 


10.6.1 C4.5 算法 


上 面 已 经 提 到 ,ID3 还 存在 着 许多 需要 改进 的 地 方 ,为 此 ,Quinlan 在 1993 年 提出 了 
ID3 的 改进 版 本 C4. 5 算法 (Quinlan,1993)。 它 与 ID3 算法 的 不 同 点 如 下 。 

(1) 分 支 指标 采用 增益 比例 ,而 不 是 ID3 所 使 用 的 信息 增益 。 

(2) 按照 数值 属性 值 的 大 小 对 样本 排序 ,从 中 选择 一 个 分 割 点 ,划分 数值 属性 的 取 值 区 
间 , 从 而 将 ID3 的 处 理 能 力 扩 充 到 数值 属性 上 来 。 

(3) 将 训练 样本 集中 的 位 置 属性 值 用 最 常用 的 值 代替 ,或 者 用 该 属性 的 所 有 取 值 的 平 
均值 代替 ,从 而 处 理 缺少 属性 值 的 训练 样本 。 

(4) 使 用 天 次 迭代 交叉 验证 ,评估 模型 的 优 劣 程度 。 

(5) 根据 生成 的 决策 树 ,可 以 产生 一 个 if-then 规则 的 集合 ,每 一 个 规则 代表 从 根 结 点 
到 叶 结 点 的 一 条 路 径 。 


x 





C4. 5 算法 的 核心 思想 与 ID3 完全 一 样 , 下 面 仅 就 C4. 5 算法 与 ID3 算法 的 一 些 不 同 点 
进行 讨论 。 

1. 增益 比例 

信息 增益 是 一 种 衡量 最 优 分 支 属性 的 有 效 函 数 ,但 是 它 倾 向 于 选择 具有 大 量 不 同 取 值 
的 属性 ,从 而 产生 许多 小 而 纯 的 子 集 。 例 如 ,病人 的 ID、 姓名 和 日 期 等 ,特别 是 作为 关系 数 
据 库 中 记录 的 主 码 的 属性 ,根据 这 样 的 属性 划分 的 子 集 都 是 单元 集 , 对 应 的 决策 树 结 点 当然 
是 纯 结 点 了 。 因 此 ,需要 新 的 指标 来 降低 这 种 情况 下 的 增益 。Quinlan 提出 使 用 增益 比例 
来 代 蔡 信息 增益 。 

HEK EU RE ARK F E ME AL 9 (3 AE CD) split. infoCS. A), JE rf S 代表 训练 样本 
集 ,A 代表 属性 ,这 个 信息 量 是 与 样本 的 类 别 无 关 的 , 它 的 计算 公式 如 下 : 
Sog: A (10-4) 
其 中 ,Si 表示 根据 属性 A 划分 的 第 i 个 样本 子 集 ,样本 在 A 上 的 取 值 分 布 越 均匀 ,split_info 
的 值 也 就 越 大 。split_info 用 来 衡量 属性 分 裂 数据 的 广度 和 均匀 性 。 属 性 A 的 增益 比例 计 
算 如 下 。 











split info(S.A) =— >) 
i=l 


gain(S.A) 
split info(CS. A) 


entropy(S) — entropy( S. A) 


-Si 1S 
2 TST e Ts] 
S 


s sS 


= 2 blog p: — 2.78] entropy(S;) 


i=l 
eSI Si | 

= 1 
2 [see Ts] 


gain ratio( S. A) — 




















(10-5) 








其 中 ,gain(S,A) 表 示 信 息 增益 。 

HIETE i EIS: ~ |S |E. split info 将 非常 小 ,从 而 导致 增益 比例 异常 地 大 ,C4.5 为 
解决 此 问题 进行 了 改进 , 它 计算 每 个 属性 的 信息 增益 ,对 于 超过 平均 信息 增益 的 属性 ,再 进 
一 步 根 据 增益 比例 来 选取 属性 。 

一 个 属性 分 割 样本 的 广度 越 大 ,均匀 性 越 强 ; 该 属性 的 split_info 越 大 ,增益 比例 就 越 
小 。 因 此 ,split_info 降低 了 选择 那些 值 较 多 且 均 匀 分 布 的 属性 的 可 能 性 。 
例如 , 含 n 个 样本 的 集合 按 属性 A 划分 为 n 组 (每 组 一 个 样本 ),A 的 分 裂 信 息 为 
logzn。 属 性 B 将 n 个 样本 平分 为 两 组 ,B 的 分 裂 信息 为 1, 若 A、B 有 同样 的 信息 增益 , 显 
然 , 按 信息 增益 比例 度量 应 选择 B 属性 。 

采用 增益 比例 作为 选择 属性 的 标准 ,克服 了 信息 增益 度量 的 缺点 ,但 是 算法 偏向 于 选择 
取 值 较 集中 的 属性 ( 即 粹 值 最 小 的 属性 ) ,而 它 并 不 一 定 是 对 分 类 最 重要 的 属性 。 

2. 数值 属性 的 处 理 

C4.5 处 理 数 值 属性 的 过 程 如 下 。 

(1) 按照 属性 值 对 训练 数据 进行 排序 。 

(2) 用 不 同 的 阔 值 对 训练 数据 进行 动态 划分 。 

(3) 当 输 入 改变 时 确定 一 个 阔 值 。 
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(5) 生成 两 个 划分 ,所 有 的 样本 分 布 到 这 两 个 划分 中 。 

(6) 得 到 所 有 可 能 的 阔 值 .增益 和 增益 比例 。 

每 一 个 数值 属性 划分 为 两 个 区 间 ,. 即 大 于 阔 值 或 小 于 等 于 阔 值 。 

3. 未 知 属性 值 的 处 理 

C4. 5 处 理 样本 中 未 知 属性 值 的 方法 是 将 未 知 值 用 最 常用 的 值 代 蔡 ,或 者 用 该 属性 的 所 
有 取 值 的 平均 值 代 蔡 。 另 一 种 解决 办 法 是 采用 概率 的 办 法 ,对 属性 的 每 一 个 取 值 赋予 一 个 
概率 ,在 划分 样本 集 时 ,将 未 知 属性 值 的 样本 按照 属性 值 的 概率 分 配 到 子 结 点 中 去 ,这 些 概 
率 的 获取 依赖 于 已 知 的 属性 值 的 分 布 。 

在 表 10-1 的 样本 中 ,属性 outlook 有 3 个 不 同 取 值 ,其 中 值 为 sunny 的 样本 有 5 个 , 值 
JJ overcast 的 样本 有 4 个 , 值 为 rainy 的 样本 有 5 个, 总共 14 个 已 知 属性 值 的 样本 。 因 此 ， 
如 果 存 在 一 个 未 知 outlook 属性 值 的 样本 ,那么 根据 属性 outlook 分 支 时 ,分 配 到 outlook = 
sunny 的 样本 数 为 5 十 5/14 个 ,分 配 到 outlook = overcast 的 样本 数 为 4 十 4/14 个 ,分 配 到 
“outlook 一 rainy” 的 样本 数 为 5 十 5/14 ^. 

4. 大 次 交叉 验证 

交叉 验证 是 一 种 模型 评估 方法 , 它 将 使 用 学 习 样 本 产生 的 决策 树 模 型 应 用 于 独立 的 测 
试 样本 ,从 而 对 学 习 的 结果 进行 验证 。 如 果 对 学 习 样本 进行 分 析 产 生 的 大 多 数 或 者 全 部 分 
支 都 是 基于 随机 噪声 的 ,那么 使 用 测试 样本 进行 分 类 的 结果 将 非常 糟糕 。 

如 果 将 上 述 的 学 习 -验证 过 程 重 复 人 次 ,就 称 为 A 次 迭代 交叉 验证 。 首 先 将 所 有 的 训练 
样本 平均 分 成 & 份 ,每 次 使 用 其 中 的 一 份 作为 测试 样本 ,使 用 其 余 的 A 一 1 次 作为 学 习 样本 ， 
然后 选择 平均 分 类 精度 最 高 的 树 作 为 最 后 的 结果 。 通 常 , 分 类 精度 最 高 的 树 并 不 是 结 点 最 
多 的 树 。 除 了 用 于 选择 规模 较 小 的 树 ,交叉 验证 还 用 于 决策 树 的 修剪 。& 次 迭代 交叉 验证 
非常 适用 于 训练 样本 数据 比较 少 的 情形 。 但 是 由 于 要 构建 A 棵 决策 树 , 它 的 计算 量 非常 大 。 

5. 规则 的 产生 

C4. 5 还 提供 了 将 决策 树 模型 转换 为 if-then 规则 的 算法 。 规 则 存储 于 一 个 二 维 数 组 
中 ,每 一 行 代表 一 个 规则 。 表 的 每 一 列 代表 样本 的 一 个 属性 , 列 的 值 代表 了 属性 的 不 同 取 
值 ,例如 ,对 于 分 类 属性 来 说 ,0、1 分 别 代表 取 属 性 的 第 一 、 二 个 值 ; 对 于 数值 属性 来 说 ,0、1 
分 别 代表 小 于 等 于 和 大 于 阔 值 。 如 果 列 值 为 一 1, 则 代表 工作 中 不 包含 该 属性 。 


10.6.2 C4.5 算法 的 伪 代 码 


假设 用 S 代表 当前 样本 集 ,当前 候选 属性 集 用 A 表示 , 则 C4. 5 算法 C4. Sformtree(S, 
A) 的 伪 代 码 如 下 。 

【算法 10.3] Generate decision tree 由 给 定 的 训练 数据 产生 一 棵 决策 树 。 

输入 : 训练 样本 samples; 候选 属性 的 集合 attributelist。 

输出 : 一 棵 决策 树 。 

(1) 创建 根 结 点 N。 

(2) IF S 都 属于 同一 类 C, 则 返回 N 为 叶 结 点 ,标记 为 类 C. 

(3) IF attributelist 为 空 OR S 中 所 剩 的 样本 数 少 于 某 给 定 值 , 则 返回 N 为 叶 结 点 , 标 
id N S 中 出 现 最 多 的 类 。 


























(4) FOR each attributelist 中 的 属性 。 计 算 信息 增益 率 information gain ratio. 
(5) N 的 测试 属性 test. attribute = attributelist 具有 最 高 信息 增益 率 的 属性 。 


(6) IF 测试 属性 为 连续 型 , 则 找到 该 属性 的 分 割 阔 值 。 


(7) For each 由 结 点 N 一 个 新 的 叶子 结 点 { 
If 该 叶子 结 点 对 应 的 样本 子 集 S 为 空 


则 分 裂 此 叶子 结 点 生成 新 叶 结 点 ,将 其 标记 为 S 中 出 现 最 多 的 类 
Else 


在 该 叶子 结 点 上 执行 C4.5 formtree(S’, S'. attributelist) ,继续 对 它 分 裂 ; 


\ 
了 


(8) 计算 每 个 结 点 的 分 类 错误 ,进行 剪 枝 。 


10.7 C4.5 算法 实例 分 析 


下 面 通过 对 毕业 生 就 业 信 息 ( 如 表 10-4 所 示 ) 的 分 析 , 帮 助教 育 者 寻找 到 可 能 影响 毕业 
生 就 业 的 信息 ,从 而 在 今后 的 教学 过 程 中 进行 改进 ,使 得 毕业 生 在 就 业 时 更 具有 竞争 力 。 




































































表 10-4 毕业 生 就 业 信息 表 
学 号 性 别 学 生 干 部 综合 成 绩 毕业 论文 就 业 情况 
2000041134 男 是 70~79 优 已 
2000041135 女 是 80~89 中 已 
2000041201 男 不 是 60 一 69 不 及 格 未 
2000041202 男 是 60 一 69 良 a 
2000041203 男 是 70~79 中 a 
2000041204 9 不 是 70~79 良 * 
2000041205 女 是 60 一 69 良 a 
2000041209 9 是 60 一 69 良 a 
2000041210 * 是 70 一 79 中 未 
2000041211 5 不 是 60 一 69 及 格 a 
2000041215 5 是 80~89 及 格 a 
2000041216 E 是 70~79 良 a 
2000041223 5 不 是 70~79 及 格 未 
2000041319 男 不 是 60 一 69 及 格 a 
2000041320 E: 是 70~79 良 a 
2000041321 5 不 是 70 一 79 良 未 
2000041322 男 不 是 80~89 良 未 
2000041323 女 是 70 一 79 良 a 
2000041324 男 不 是 70~79 不 及 格 未 
2000041325 男 不 是 70~79 良 未 
2000041326 * 是 60 一 69 优 a 
2000041327 男 是 60~69 良 a 
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解 : 表 10-4 的 数据 是 经 过 预 处 理 的 数据 集 , 从 表 中 可 以 得 到 类 标号 属性 “就 业 情况 ”有 
2 ^^ RH EC ente ,因此 有 2 个 不 同 的 类 。 其 中 对 应 于 类 值 * 己 ”有 14 个 样本 ,类 值 
“未 ”有 8 个 样本 。 

我 们 先 计算 训练 集 的 全 部 信息 量 。 

entropy( 就 业 情 况 ) 一 entropy(14.8) 王 一 14/22log2(14/22) 一 8/22log2(8/22) 一 0.04566030 

接着 ,需要 计算 每 个 属性 的 信息 增益 比 。 如 以 属性 “性 别 ” 为 例 : 

entropy( 男 ) 一 entropy(10,7) 王 一 10/17log2(10/17) 一 7/17log2(7/17) 王 0. 97741728 

entropy( 4) —entropy(4.1) — —4/51og2(1/5) —1/5log2(1/5) —0. 72192809 

HARA: 

entropy( 性 别 ) 王 17/22 x entropy( 9) +5/22 x entropy( 4x) —0. 91935197 

求 出 这 种 划分 的 信息 增益 : 

gain( 性 别 ) 王 entropy( 就 业 情况 ) 一 entropy( 性 别 ) 一 0.02630833 

再 根据 公式 求 出 在 该 属性 上 的 分 裂 信息 : 

split_Info( 性 别 ) 王 一 17/22log2(17/22) 一 5/22 一 log2(55/22) 一 0.77322667 

最 后 求 出 在 该 属性 上 的 增益 比 : 

gain_ratio( 学 生 干 部 ) 二 0. 41171446, gain_ratio( 综 合成 绩 ) = 0. 08839108, gain. ratio 
(毕业 成 绩 ) 一 0. 10167158 

由 上 述 计 算 结 果 可 知 :“ 学 生 干 部 ”在 属性 中 具有 最 大 的 信息 增益 比 , 取 “ 学 生 干 部 ”为 
根 属性 ,引出 一 个 分 支 ,样本 按 此 划分 。 对 引出 的 每 一 个 分 支 再 用 此 分 类 法 进行 分 类 ,再 引 
出 分 支 , 最 后 所 构造 出 的 判定 树 如 图 10-7 所 示 。 




















图 10-7 构造 出 的 判定 树 


10.8 C4.5 算法 的 特点 及 应 用 


10.8.1 C4.5 算法 的 特点 


C4.5 算法 的 优点 如 下 。 
(1) 产生 的 分 类 规则 易于 理解 。 
(2) 准确 率 较 高 。 


C4. 5 算法 的 缺点 主要 是 在 构造 树 的 过 程 中 ,需要 对 数据 集 进行 多 次 的 顺序 扫描 和 排 
序 , 因 而 导致 算法 的 低 效 。 


10.8.2 C4.5 算法 的 应 用 


1. C4. 5 算法 在 保险 客户 流失 分 析 中 的 应 用 

随 着 我 国 加 入 WTO 后 ,我 国保 险 市 场 将 逐步 对 外 开放 ,保险 市 场 的 竞争 将 更 加 激烈 。 
客户 是 保险 公司 生存 和 发 展 的 根基 ,而 吸引 客户 、 保 持 客户 .避免 客户 流失 是 保险 公司 提高 
竞争 力 的 关键 。 数 据 挖掘 在 保险 领域 有 着 广泛 的 应 用 ,通过 挖掘 ,可 发 现 购买 某 一 保险 险种 
的 客户 的 特征 ,从 而 可 以 向 那些 具有 同样 特征 却 没 有 购买 该 保险 险种 的 客户 进行 推销 ; 还 
可 找到 流失 客户 的 特征 ,在 那些 具有 相似 特征 的 客户 还 未 流失 之 前 ,采取 针对 性 的 措施 避免 
客户 的 流失 。 利 用 数据 挖掘 中 的 面向 属性 归纳 和 分 类 决策 树 C4. 5 算法 ,对 保险 公司 的 客 
户 基本 信息 进行 分 析 , 找 出 了 客户 流失 的 特征 ,可 帮助 保险 公司 有 针对 性 地 改善 客户 关系 ， 
避免 客户 流失 。 

2. C4. 5 算法 在 高 校 教学 决策 支持 中 的 应 用 

随 着 我 国 高 等 教育 的 发 展 ,各 高 校 的 招生 规模 不 断 扩大 ,教育 模式 也 不 断 更 新 ,使 用 基 
于 校园 网 的 教学 管理 系统 ,实现 了 信息 化 、 网 络 化 的 教学 ,但 同时 也 积累 了 大 量 的 数据 ,如 何 
从 这 些 数据 中 挖掘 出 有 价值 的 信息 ,为 学 校 教学 决策 提供 参考 依据 ,是 各 高 校 面 临 的 问题 。 
决策 树 C4.5 算法 可 以 从 学 校 积累 的 数据 中 有 效 分 类 ,实现 根据 现 有 数据 去 预测 未 来 的 发 
展 趋势 ,例如 ,可 以 通过 C4.5 对 学 生成 绩 进行 分 析 , 找 出 影响 学 生成 绩 的 成 因 , 提 出 相应 的 
解决 策略 ,更 好 地 指导 教学 。 

3. C4.5 算法 在 网 络 入 侵 检测 中 的 应 用 

随 着 计算 机 网 络 技术 的 迅猛 发 展 和 广泛 应 用 ,从 网 络 资源 中 获得 共享 信息 已 经 成 为 了 
人 们 日 常生 活 中 必 不 可 少 的 方式 之 一 。 与 此 同时 ,人 们 也 不 得 不 面 对 由 于 入 侵 而 引发 的 一 
系列 网 络 安全 问题 的 困扰 。 传 统 的 防火 墙 技术 已 经 难以 单独 保障 网 络 的 安全 ,入 侵 检测 作 
为 防火 墙 技 术 的 补充 开始 发 挥 出 不 可 替代 的 作用 。 入 侵 检测 是 一 种 通过 实时 监测 目标 系统 
来 发 现 入 侵 攻击 行为 的 安全 技术 。 当 前 的 大 多 数 入 侵 检 测 系统 采用 基于 规则 的 简单 模式 匹 
配 技术 ,它们 存在 计算 量 大 、 误 报 漏 报 率 高 等 缺点 。 针 对 这 些 不 足 , 以 决策 树 方法 作为 描述 
模型 ,实现 决策 树 C4. 5 算法 ,使 用 训练 集 构建 分 类 树 来 实现 对 入 侵 行为 的 检测 。 决 策 树 算 
法 具有 构造 速度 快 , 分 类 精度 高 检测 速率 快 以 及 良好 的 自 适应 和 自学 习 等 特点 ,适合 用 于 
攻击 检测 中 。 














10.9 C4.5 源 程序 结果 分 析 


C4. 5 源 程序 包含 DTree. java, DTreeUtil . java, SequenceComparator. java 和 TreeNode. java 
等 文件 ,相关 程序 和 实验 数据 可 从 github 中 下 载 ,网 址 为 https://github. com/guanyaol/ 
desiciontree-C45. git. 


1. DTree. java 


package Decisiontree. C45; 
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import java. util. ArrayList; 

import java. util. List; 

import java. util. TreeSet; 

/ > 决策 树 的 ID3 算法 

* @author liuwei 
«/ 

public class DTree { 

// 根 结 点 

TreeNode root; 

// 可 见 性 数组 

private boolean[] visable; 

// 未 找到 结 点 

private static final int NO FOUND -- 1; 

// 训 练 集 

private Object[ ] trainningArray; 

// 结 点 索引 

private int nodeIndex; 

public static void main(String[] args) { 
Object[ ] array = new Object[ ]{ 
/ [new String[]{" 男 "," 中 年 ", "未 婚 ", "大学"," 中 "," 没 购买"}， 
//nen String[]{" 女 "," 中 年 "," 未 婚 "，" 大 学 ", "中" "购买"}， 
//new String[]{" 男 ", "中 年 ", "已 婚 ", "大 学 "," 中 ", "购买 "}， 
//new string[]{" 男 "," 老 年"," 已 婚 "," 大 学 以 下 "," 低 ", "购买 "} 
new String[] { "youth","high","no","fair","no" }, 


" "no" }, 


new String[] ( "youth", "high", "no", "excellent 
new String[] ( "middle aged","high","no","fair","yes" ], 

new String[] ( "senior", "medium", "no", "fair","yes" }, 

new String[] { "senior","low","yes","fair","yes" }, 

new String[] ( "senior","low","yes","excellent","no" }, 

new String[] ( "middle aged","low","yes", excellent", "yes" }, 
new String[] { "youth","medium","no","fair","no" ], 

new String[] ( "youth", " low", "yes", "fair", "yes" }, 

new String[] ( "senior", "medium","yes","fair","yes" }, 

new String[] ( "youth", "medium", "yes", "excellent","yes" }, 

new String[] ( "middle aged", "mediun","no","excellent","yes" }, 
new String[] ( "middle aged","high","yes","fair","yes" ), 

new String[] { "senior","medium","no","excellent","no" }, 

} 

DTree tree = new DTree(); 

tree. create(array, 4); 
System. out. println(" == 











String[] printData = {"youth","low", "yes", "excellent","yes"}; 
DECISION RESULT = 





System. out. println(" = 
tree. compare(printData, tree. root); 


/* 根 据 传 入 的 数据 进行 预测 
* @param printData 


* @param node 
«/ 
private void compare(String[] printData, TreeNode node) { 
int index = getNodeIndex( node. nodeName) ; 
if(index == NO_FOUND){ 
System. out. println(node. nodeName) ; 
System. out. println( (node. percent « 100) + "%"); 
TreeNode[ ] chlids = node. childNodes; 
for(int i = 0; i<chlids. length; i++){ 
if(chlids[i] != null)( 
if(chlids[i].parentArrtibute. equals(printData[index]))( 
compare(printData, chlids[i]); 


} 
private int getNodeIndex(String nodeName) { 


//String[] strs = ("fEXI", "年 龄 "," 婚 否 ", "学 历 ", "中 还 是 低 ", "是 否 购买 "}; 
String[] strs = ("age","income","student","credit rating","buy computer"]; 


for (int i = 0; i< strs. length; i++) ( 
if(nodeName. equals(strs[i])){ 


return i; 


} 

return NO_FOUND; 
} 
// 创 建 


private void create(Object[] array, int index) { 
this. trainningArray = array; 


init (array, index) ; 


createDTree(array) ; 
printDTree( root) ; 

} 

// 打 印 决策 树 


private void printDTree(TreeNode node) { 
System. out. println(node. nodeName) ; 
TreeNode[] childs = node. childNodes; 
for(int i = 0; i< childs. length; i++) { 
if(childs[i] != null){ 
System. out. println(childs[ i]. parentArrtibute + ""); 
printDTree(childs[i]); 
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// 创 建 决策 树 
private void createDTree(Object[] array) { 
Object[ ] maxgain = getMaxGain(array) ; 
if(root == null){ 
root = new TreeNode( ) ; 
root.parent = null; 
root.parentArrtibute - null; 
root.arrtibute = getArrtibutes(((Integer)maxgain[1]). intValue()); 
root.nodeName = getNodeName( ((Integer)maxgain[1]). intValue()); 
root.childNodes = new TreeNode[ root. arrtibute. length]; 


insertTree(array, root); 


// 插 入 到 决策 树 
private void insertTree(Object[] array, TreeNode parentNode) { 
String[] arrtibutes = parentNode. arrtibute; 
for(int i = 0;i<arrtibutes. length; i++) { 

Object[ ] pickArray = pickUpAndCreateArray( array, arrtibutes[ i], getNodeIndex( parentNode. 

nodeName) ) ; 

Object[ ] info = getMaxGain(pickArray) ; 

double gain = ((Double) info[0]).doubleValue( ) ; 

if(gain != 0){ 
int index = ((Integer) info[1]). intValue(); 
TreeNode currentNode = new TreeNode(); 
currentNode. parent = parentNode; 
currentNode. parentArrtibute = arrtibutes[i]; 
currentNode. arrtibute = getArrt ibutes( index); 
currentNode. nodeName = getNodeName( index) ; 
currentNode. childNodes = new TreeNode[currentNode. arrt ibute. length]; 
parentNode. childNodes[i] = currentNode; 
insertTree(pickArray, currentNode) ; 

Jelse( 
TreeNode leafNode - new TreeNode(); 
leafNode.parent - parentNode; 
leafNode. parentArrtibute = arrtibutes[i]; 
leafNode.arrtibute = new String[0]; 
leafNode.nodeName = getLeafNodeName( pickArray) ; 
leafNode. childNodes = new TreeNode[0]; 
parentNode. childNodes[i] = leafNode; 


double percent = 0; 
String[] arrs = getArrtibutes(this. nodeIndex) ; 
for (int j = 0; j<arrs. length; j++) { 
if ( leafNode. nodeName. equals(arrs[j])){ 
Object[] subo = pickUpAndCreateArray(pickArray, arrs[j], this. 


nodeIndex) ; 


Object[] o = pickUpAndCreateArray(this. trainningArray, arrs[j], this. 


nodeIndex); 
double subCount - subo.length; 
percent = subCount / o. length; 


} 
} 
leafNode. percent = percent; 
J 
} 
} 
// 取 得 页 结 点 名 


private String getLeafNodeName(Object[] array) { 
if(array != null && array. length > 0) { 
String[] strs = (String[]) array[0]; 
return strs[nodeIndex]; 


} 


return null; 


// 剪 取 数 组 
private Object[ ] pickUpAndCreateArray(Object[] array, String arrtibute, 
int index) ( 
List«String[]» list = new ArrayList <String[ ]>(); 
for(int i = 0;i<array. length; i++){ 
String[] strs = (String[]) array[ i]; 
if(strs[ index]. equals(arrtibute) ) { 
list. add(strs) ; 


} 


return list. toArray(); 


// 取 得 结 点 名 
private String getNodeName(int index) { 
//String[]strs = ("fEXI", "年 龄 "," 婚 否 ", "学 历 ", "中 还 是 低 ", "是 否 购 买 "}; 
String[] strs = {"age","income","student","credit rating","buy computer"]; 
for (int i = 0; i< strs. length; i++) { 
if(i == index){ 
return strs[i]; 


} 

return null; 
} 
// 初 始 化 
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private void init(Object[] dataArray, int index) { 
this. nodeIndex = index; 
// 数 据 初始 化 
visable = new boolean[((String[]) dataArray[0]). length]; 
for(int i = 0;i<visable.length;i++){ 
if(i == index){ 
visable[i] = true; 
}else{ 
visable[i] = false; 


// 得 到 最 大 的 信息 增益 

public Object[ ] getMaxGain(Object[] array){ 
Object[ ] result = new Object[2]; 
double gain = 0; 


int index = 





for(int i = 0; i< visable. length; i++) { 
if(!visable[i])( 
double value = gain(array,i); 
if(gain < value){ 
gain = value; 


index = i; 


} 

result[0] = gain; 

result[1] = index; 

if(index !=- 1)( 
visable[index] = true; 

) 


return result; 


//Entropy(S) 
private double gain(Object[] array, int index) { 
String[] playBAlls = getArrtibutes(this. nodeIndex); 
int[] counts - new int[playBAlls.length]; 
for(int i = 0;i < counts. length; i++){ 
counts[i] = 0; 
J 
for (int i = 0; i<array. length; i++) { 
String[] strs = (String[]) array[ i]; 
for (int j = 0; j< playBAlls.length; j++) { 
if(strs[this. nodeIndex] . equals(playBAlls[ j])){ 


counts[ j]++; 


} 
// 计 算 Entropy(S) = S - p(I)1og2 p(I) 
double entropyS = 0; 
for (int i = 0; i<counts. length; i++) { 
entropyS += DTreeUtil. sigma(counts[i], array. length); 
} 
String[] arrtibutes = getArrtibutes( index); 


/* i+ total * ((Sv/ S) * Entropy(Sv)) 
«/ 
double sv_total = 0; 
for (int i = 0; i<arrtibutes. length; i++) { 
sv total += entropySv(array, index, arrtibutes[i],array. length); 
} 
return entropyS - sv total; 


// 计 算 (Sv / S) * Entropy(Sv) 
private double entropySv(Object[] array, int index, String arrtibute, 
int allTotal) { 
String[] playBalls = getArrtibutes( this. nodeIndex) ; 
int[] counts = new int[playBalls. length]; 
for(int i = 0;i < counts. length; i++ ){ 
counts[i] = 0; 
} 
for (int i = 0; i<array. length; i++) { 
String[] strs = (String[]) array[ i]; 
if(strs[ index]. equals(arrtibute) ) { 
for (int j = 0; j< playBalls. length; j++) { 
if (strs[ this. nodeIndex]. equals(playBalls[ j])){ 
counts[ j]++; 


1 
int total - 0; 
double entropySv - 0; 
for (int i = 0; i< counts. length; i++) ( 
total += counts[i]; 
} 
for (int i = 0; i<counts. length; i++) { 
entropySv += DTreeUtil.sigma(counts[i], total); 
} 
return DTreeUtil. getPi(total, allTotal) * entropySv; 
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// 取 得 属性 数组 
@SuppressWarnings("unchecked" ) 
private String[ ] getArrtibutes(int index) { 
TreeSet «String» set = new TreeSet < String (new SequenceComparator()) ; 
for (int i = 0; i<trainningArray. length; i++) { 
String[] strs = (String[]) trainningArray[ i]; 
set. add(strs[ index]); 
} 
String[] result = new String[set. size()]; 
return set. toArray(result) ; 


} 
2. DTreeUtil. java 


package Decisiontree. C45; 
public class DTreeUtil { 


17 BYE AER IC it E 
public static double sigma(int x, int total){ 
if(x == 0){ 
return 0; 
} 
double x_pi = getPi(x, total); 
return - (x pi * logYBase2(x pi)); 
} 
/ * logYBase2 的 计算 
* @param y 
* @return double 
«/ 
public static double logYBase2(double y) { 
return Math. log(y) / Math. log(2); 
ij 
/x*Pi 是 当前 这 个 属性 出 现 的 概率 (出 现 次 数 /总 数 ) 
* @param x 
* @param total 
*/ 
public static double getPi(int x, int total) { 
return x * Double.parseDouble("1.0") / total; 


} 
3. SequenceComparator. java 


package Decisiontree. C45; 
import java. util. Comparator; 


public class SequenceComparator implements Comparator < Object >{ 


@Override 

public int compare(Object ol, Object o2) { 
String strl = (String) ol; 
String str2 - (String) o2; 
return strl.compareTo(str2); 


) 
4. TreeNode. java 


package Decisiontree. C45; 
public class TreeNode ( 


// 父 结 点 
TreeNode parent; 


// 指 向 父亲 的 哪个 属性 
String parentArrtibute; 
// 结 点 名 

String nodeName; 

// 属 性 数组 

String[ ] arrtibute; 

// 结 点 数组 

TreeNode[ ] childNodes; 
// 可 信和 度 

double percent; 


} 


对 于 ID3 算法 的 测试 ,我 们 使 用 了 数据 集 weather. nominal. arff ,数据 如 图 10-8 所 示 。 


i @relation weather.symbolic 

D 

i @attribute outlook (sunny, overcast, rainy) 
1 @attribute temperature (hot, mild, cool} 
$ @attribute humidity (high, normal) 
5 @attribute windy (TRUE, FALSE} 

7 @attribute play (yes, no) 

à 

? @data 

) sunny, hot, high, FALSE, no 

L sunny, hot,high,TRUE, no 

2 overcast, hot, high, FALSE, yes 

3 rainy,mild, high, FALSE, yes 

1 rainy, cool, normal, FALSE, yes 

5 rainy, cool, normal, TRUE, no 

5 overcast, cool, normal, TRUE, yes 

1 sunny,mild, high, FALSE, no 

3 sunny, cool, normal, FALSE, yes 

) rainy,mild, normal, FALSE, yes 

) sunny, mild, normal, TRUE, yes 

L overcast,mild, high, TRUE, yes 

1 overcast, hot, normal, FALSE, yes 

3 rainy,mild, high, TRUE, no 


图 10-8 决策 树 分 类 算法 数据 
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运行 结果 如 图 10-9 所 示 。 


1 <?xml version="1.0" encoding="UTF-8"?> 
2 





3 «root» 
48 <DecisionTree value="null"> 

S8 «outlook value="sunny"> 

6 «humidity value="high">no</humidity> 

了 <humidity value="normal">yes</humidity> 
8 </outlook> 

5 «outlook value="overcast™>yes</outlook> 
108 «outlook value="rainy"> 

1i <windy value="TRUE">no</windy> 

12 <windy value-"FALSE"»yesc/windy» 

13 </outlook> 


14 </DecisionTree> 
15 </root> 


图 10-9 决策 树 分 类 算法 实验 结果 图 


首先 保存 首 行 即 属性 行 数据 ,存储 属性 对 应 的 所 有 的 值 ,根据 数据 实例 计算 属性 与 值 组 
成 的 map。 检 测 所 有 的 属性 ,根据 具体 属性 和 值 来 计算 灶 , 选 择 信息 增益 最 大 的 属性 产生 决 
策 树 结 点 ,由 该 属性 的 不 同 取 值 建 立 分 支 , 再 对 各 分 支 的 子 集 递归 调用 该 方法 , 求 做 划分 后 
各 个 值 的 灶 , 建 立 决 策 树 结 点 的 分 支 ,直到 所 有 子 集 仅 包 含 同一 类 别 的 数据 为 止 。 通 过 输出 
的 结果 得 到 了 一 棵 决策 树 , 它 可 以 用 来 对 新 的 样本 进行 分 类 。 


10.10 小 结 


本 章 内 容 是 决策 树 基本 算法 ,决策 树 分 类 算法 通常 分 为 两 个 步骤 : 决策 树 生 成 和 决策 
树 修 剪 。 重 点 介绍 了 两 种 决策 树 分 类 算法 : ID3 算法 和 C4. 5 算法 。 阐 述 了 它们 的 原理 ， 
C4. 5 算法 的 核心 思想 与 ID3 完全 一 样 。 总 结 了 它们 的 优点 与 缺点 ,并 佐 以 实例 和 程序 。 最 
后 简单 介绍 了 它们 的 应 用 。 


B 考 B 


. 连续 属性 如 何 离散 化 ? 请 用 ID3 算法 或 CA. 5 算法 举例 说 明 。 

. 结合 实例 ,应 用 C4 5 算法 挖掘 决策 树 , 并 与 ID3 算法 比较 结果 。 
. 决策 树 算 法 的 过 拟 合 问题 如 何 解决 ? 

. 决策 树 算 法 的 实质 是 什么 ? 


e 性 





第 11 章 K-means 聚 类 算法 





11.1 K-means 聚 类 算法 原理 


11.1.1  K-means 聚 类 算法 原理 解析 


K-means 聚 类 算法 由 J.B. MacQueen 在 1967 年 提出 的 ,是 最 为 经 典 也 是 使 用 最 为 广泛 
的 一 种 基于 划分 的 聚 类 算法 , 它 属于 基于 距离 的 聚 类 算法 。 所 谓 的 基于 距离 的 聚 类 算法 是 
指 采用 距离 作为 相似 性 度量 的 评价 指标 ,也 就 是 说 当 两 个 对 象 离 的 近 , 二 者 之 间 的 距离 比较 
小 ,那么 它们 之 间 的 相似 性 就 比较 大 。 这 类 算法 通常 是 由 距离 比较 相近 的 对 象 组 成 马 , 把 得 
到 紧凑 而 且 独立 的 簇 作 为 最 终 目 标 ,因此 将 这 类 算法 称 为 基于 距离 的 聚 类 算法 。K-means 
聚 类 算法 就 是 其 中 比较 经 典 的 一 种 算法 。K-means 聚 类 是 数据 挖掘 的 重要 分 支 ,同时 也 是 
实际 应 用 中 最 常用 的 聚 类 算法 之 一 。 

K-means 聚 类 算法 的 最 终 目标 就 是 根据 输入 参数 &( 这 里 的 A 表 示 需 要 将 数据 对 象 聚 
成 几 簇 ) ,把 数据 对 象 分 成 & 个 徐 。 该 算法 的 基本 思想 : 首先 指定 需要 划分 的 能 的 个 数 k 
值 ; 然后 随机 地 选择 个 初始 数据 对 象 点 作为 初始 的 聚 类 中 心 ; 第 三 ,计算 其 余 的 各 个 数据 
对 象 到 这 上 个 初始 聚 类 中 心 的 距离 (这 里 一 般 采 用 距离 作为 相似 性 度量 ) ,把 数据 对 象 划 归 到 
距离 它 最 近 的 那个 中 心 所 处 在 的 簇 类 中 ; 最 后 ,调整 新 类 并 且 重 新 计算 出 新 类 的 中 心 。 如 果 
两 次 计算 出 来 的 聚 类 中 心 未 曾 发 生 任何 的 变化 ,那么 就 可 以 说 明 数 据 对 象 的 调整 已 经 结束 ,也 
就 是 说 聚 类 采用 的 准则 函数 (这 里 采用 的 是 误差 平方 和 的 准则 函数 ) 是 收敛 的 ,表示 算法 结束 。 

K-means 聚 类 算法 属于 一 种 动态 聚 类 算法 ,也 称 作 逐 步 聚 类 法 ,该 算法 的 一 个 比较 显著 
的 特点 就 是 迭代 过 程 ,每 次 都 要 考查 对 每 个 样本 数据 的 分 类 正确 与 否 ; 如 果 不 正确 ,就 要 进 
行 调整 。 当 调整 完全 部 的 数据 对 象 之 后 ,再 来 修改 中 心 , 最 后 进入 下 一 次 迭代 的 过 程 中 。 若 
在 一 个 迭代 中 ,所 有 的 数据 对 象 都 已 经 被 正确 的 分 类 ,那么 就 不 会 有 调整 , 聚 类 中 心 也 不 会 
改变 , 聚 类 准则 函数 也 表明 已 经 收敛 ,那么 该 算法 就 成 功 结束 。 

传统 的 K-means 算法 的 基本 工作 过 程 : 首先 随机 选择 个 数据 作为 初始 中 心 ,计算 各 
个 数据 到 所 选 出 来 的 各 个 中 心 的 距离 ,将 数据 对 象 指派 到 最 近 的 艇 中 。 然 后 计算 每 个 艇 的 
均值 ,循环 往复 执行 ,直到 满足 聚 类 准则 函数 收敛 为 止 。 其 具体 的 工作 步骤 如 下 。 

输入 : 初始 数据 集 DATA 和 簇 的 数目 。 

输出 :个 簇 , 满 足 平方 误差 准则 函数 收敛 。 

CD 任意 选择 & 个 数据 对 象 作为 初始 聚 类 中 心 。 

(2) 计算 各 个 数据 到 所 选 出 来 的 各 个 中 心 的 距离 ,将 数据 对 象 指派 到 最 近 的 簇 中 。 然 
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后 计算 每 个 簇 的 均值 。 

(3) 根据 簇 中 对 象 的 平均 值 ,将 每 个 对 象 赋 给 最 类 似 的 簇 。 

(4) 更 新 艇 的 平均 值 , 即 计算 每 个 对 象 簇 中 对 象 的 平均 值 。 

(5) 计算 聚 类 准则 函数 E. 

(6) 直到 准则 函数 E 值 不 再 进行 变化 。 

K-means 算法 的 工作 流程 如 图 11-1 所 示 。 

K-means 算法 的 工作 框架 如 下 。 

CD 给 出 nn 个 数据 样本 , 另 [一 1, 随 机 选择 A 个 
PARK po Z;COD.j 1.2.3... 

(2) 求解 每 个 数据 样本 与 初始 聚 类 中 心 的 距离 
D(zi, ZD) i=1,2,3, 72,J 一 1,2,3,…,A; Æ 
Wim DGi.Z; ID) =min{ D(zi, Z)(1)).i=1,2, 
3.60} BA ri Eww NZ} CD 所 属 的 族 。 

(3) 令 T=T 十 1, 计 算 新 聚 类 中 心 Z(1) = 






MARRIDA n 





初始 化 K 个 聚 类 中 心 





分 配 各 个 数据 对 象 到 距离 最 近 的 类 中 














[miror n etna (均值 ) | 








lk a Cw wn WAR we) 中 的 数据 个 数 ， 


nj i=1 
Jj 一 1,2,3,…,R; 计算 误差 平方 和 准则 函数 J. 的 值 : 
k oU 
JD = 3M lP —ZiO IH? 


j=1 k=1 

(4) din | J.(D —J«.( — D | e 则 表示 算法 结 
KR RZ [一 T 二 1, 重新 返回 第 (2) 步 执行 。 

从 该 算法 的 框架 能 够 得 出 : K-means 算法 的 特 
点 就 是 调整 一 个 数据 样本 后 就 修改 一 次 聚 类 中 心 以 图 11-1 K-means 算法 的 工作 流程 
及 聚 类 准则 函数 的 值 , 当 nn 个 数据 样本 完全 被 调整 (输入 聚 类 的 个 数 K 和 数据 样本 n) 
TERR KKR TER X ER E E E A k A R 
类 中 心 的 值 。 若 在 一 次 迭代 完成 之 后 , 聚 类 准则 函数 的 值 没 有 发 生变 化 ,那么 表明 该 算法 已 
经 收敛, 在 迭代 过 程 中 值 逐渐 缩小 ,直到 达到 最 小 值 为 止 。 该 算法 的 本 质 是 把 每 一 个 样本 点 
划分 到 离 它 最 近 的 聚 类 中 心 所 在 的 类 。 

K-means 聚 类 算法 其 本 质 是 一 个 最 优化 求解 的 问题 ,目标 函数 虽然 有 很 多 局 部 最 小 值 
点 ,但 是 只 有 一 个 全 局 最 小 值 点 。 之 所 以 只 有 一 个 全 局 最 小 值 点 是 由 于 目标 函数 总 是 按照 
误差 平方 准则 函数 变 小 的 轨迹 来 进行 查找 的 。 

K-means 算法 对 聚 类 中 心 采取 的 是 迭代 更 新 的 方法 ,根据 k 个 聚 类 中 心 , 将 周围 的 点 划 
分 成 个 簇 ; 在 每 一 次 的 迭代 中 将 重新 计算 的 每 个 簇 的 质心 , 即 簇 中 所 有 点 的 均值 ,作为 下 
一 次 迭代 的 参照 点 。 也 就 是 说 ,每 一 次 的 迭代 都 会 使 选取 的 参照 点 越 来 越 接近 艇 的 几何 中 
心 , 也 就 是 说 驴 心 。 所 以 目标 函数 如 果 越 来 越 小 ,那么 聚 类 的 效果 也 会 越 来 越 好 。 


11.1.2 K-means 聚 类 算法 应 用 举例 


【 例 11.1] 利用 KK-means 方法 ,把 A-L 12 个 数据 分 成 两 类 。 初 始 的 随机 点 指定 为 Ml 
(20,60) .M2(80.80)。 列 出 每 一 次 分 类 结果 及 每 一 类 中 的 平均 值 (中 心 点 ) 如 表 11-1 所 示 。 













































































表 11-1 A-L 12 个 数据 
坐标 点 X Y AMI 点 M2 

A 2.212 68. 367 20 60 80 80 
B 27.89 83.127 

Cc 30.519 61.07 

D 62.049 69. 343 

E 29. 263 68. 748 

F 62.657 90. 094 

G 75.735 62. 761 

H 24. 344 43. 816 

I 17.667 86.765 

J 68. 816 76. 874 

K 69.076 57. 829 

L 85. 691 88.114 
解 ， 


第 一 次 分 类 : 依次 计算 出 坐标 点 A-L 到 点 MI 和 点 M2 的 距离 。 将 数据 点 到 MI 的 距离 
与 数据 点 到 M2 的 距离 比较 并 排序 ,判断 各 数据 点 归属 于 MI 类 还 是 M2 类 ,如 表 11-2 所 示 。 


表 11-2 第 一 次 分 类 排序 结果 
























































X Y 点 到 M1 的 距离 | 点 到 M2 的 距离 | 归属 于 MINM 点 
A 2.273 68. 367 24.435 839 03 | 66.384 276 69 M1 
B 27. 89 83. 127 24.435 839 03 | 52.203 737 69 MI 
C 30. 519 61.07 10.573 280 52 | 52.978 432 04 MI 
E 29. 263 68. 748 12. 740 905 5 51. 969 709 19 MI 
H 24. 344 43. 816 16.756 855 07 | 66.384 276 69 MI 
I 17. 667 86. 765 26. 866 486 82 | 62.699 028 01 MI 
D 62. 049 69. 343 43.074470 98 | 20.876 064 04 M2 
P 62. 657 90. 094 52. 204 104 1 20. 066 601 23 M2 
G 75.735 62. 761 55. 803 345 29 | 17.758 754 07 M2 
J 68. 816 76. 874 51.650108 73 | 11.612 653 96 M2 
K 69. 076 57. 829 49.123996 35 | 24.716 128 68 M2 
L 85. 691 88.114 71. 454 212 45 9. 910 826 252 M2 


第 一 次 分 类 结果 如 表 11-3 所 示 。 
表 11-3 第 一 次 分 类 结果 








































































Mi 类 M2 类 

A 2.273 68.367 D 62. 049 69. 343 

B 27.89 83.127 E 62. 657 90. 094 

C 30. 519 61.07 G 75. 735 62. 761 

E 29. 263 68. 748 I 68. 816 76.874 

H 24. 344 43. 816 K 69. 076 57. 829 

I 17. 667 86. 765 L 85. 691 88.114 
Fa M1! 点 21. 992 67 | 68. 648 833 33 |M2 类 中 心 M2 点 70. 670 67 74.169166 7 
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绘制 的 散 点 图 如 图 11-2 所 示 。 
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图 11-2 第 一 次 分 类 结果 


第 二 次 分 类 : 使 用 AVERAGE 函数 求 第 一 次 分 类 后 各 类 的 质心 M1' 和 M2'。 依 据 第 
一 次 分 类 时 的 步骤 ,得 到 了 第 二 次 分 类 的 结果 ,如 表 11-4 和 表 11-5 所 示 。 
表 11-4 第 二 次 分 类 排序 结果 









































X Y 到 MI' 点 的 距离 | 到 M2" 点 的 距离 M1'/M2' 
A 2.273 68. 367 19. 721 683 83 | 68.643 327 7 MI 
B 27.89 83. 127 15.633 166 91 | 43. 708 4482 M1 
C 30. 519 61. 07 11.407 759 09 | 42.234 403 73 MI 
E 29. 263 68. 748 7.271106 326 | 41. 761037 09 MI 
H 24.344 43. 816 24.943 90103 | 55.384 792 88 MI 
I 17. 667 86.765 18. 625 440 57 | 54.479 757 4 MI 
D 62. 049 69. 343 40. 062 344 48 9. 880 542 012 M2 
E 62. 657 90. 094 45.972 633 71 | 17. 827 482 08 M2 
G 75. 735 62. 761 54.063 893 46 | 12. 481 737 9 M2 
J 68. 816 76.874 47. 540 274 02 3. 279 619 816 M2 
K 69. 076 57. 829 48. 310 544 24 | 16. 417 799 12 M2 
L 85. 691 88.114 66. 606 08146 | 20. 495 575 06 M2 






































M1' 类 M2' 类 
A 2.273 68. 367 D 62. 049 69. 343 
B 27. 89 83. 127 F 62.657 90. 094 
€ 30.519 61.07 G 75.735 62. 761 
E 29. 263 68. 748 J 68. 816 76. 874 
H 24. 344 43. 816 K 69.076 57. 829 
I 17.667 86. 765 E 85. 691 88.114 














绘制 散 点 如 图 11-3 所 示 。 
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图 11-3 第 二 次 分 类 结果 


根据 以 上 分 析 过 程 , 可 以 明显 看 出 第 二 次 聚 类 结果 和 第 一 次 聚 类 结果 没有 发 生变 化 ,由 
此 可 以 确定 聚 类 结束 。 

【 例 11.2】 设 有 数据 样本 集合 为 X={1,5,10,9,26,32,16,21,14) ,将 X 聚 为 3 类 , 即 
& 一 3。 随 机 选择 前 3 个 数值 为 初始 的 聚 类 中 心 , 即 zi 二 1,xs 二 5,zs 三 10。( 采 用 欧 氏 距离 进 
行 计算 。) 

解 : 

第 一 次 迭代 ; 按照 3 个 聚 类 中 心 将 样本 集合 分 为 3 个 簇 {1}、{5)、{10,9,26,32,16,21， 
14}。 对 于 产生 的 簇 分 别 计算 平均 值 ,得 到 平均 值 点 填 入 第 2 步 的 zi \xs zs 栏 中 。 

第 二 次 迭代 ; 通过 平均 值 调整 对 象 所 在 的 簇 ,重新 聚 类 ,即将 所 有 点 按 距离 平均 值 点 1、 
5,18. 3 最 近 的 原则 重新 分 配 , 得 到 3 个 新 的 簇 (1)}、{5,10,9)、{26,32,16,21,14)。 填 入 第 2 
步 的 Ci Co Cs 栏 中 。 重 新 计算 艇 平均 值 点 ,得 到 新 的 平均 值 点 为 1.8、21.8。 

以 此 类 推 ,第 五 次 迭代 时 ,得 到 的 3 个 簇 与 第 四 次 迭代 的 结果 相同 ,而 且 准 则 函数 EE 收 
SOTERA. BRON 11-6 所 示 。 





表 11-6 K-means 聚 类 算法 






































步骤 z zz zs C C C E 
1 1 5 10 {1} {5} {10.9,26,32,16.21,14} 433. 43 
2 1 5 18.3 | (1) (5.10.9) (26.32.16.21.14) 230.8 
3 1 8 21.8 | {1} (5.10.9.14) (26.32.16.21) 181. 76 
4 1 9.5 23.8 | {1,5} | (10,9.14.16) (26.32.21) 101.43 
5 3 12.3 26.3 | {1,5} | (10,9.14.16) {26,32,21} 101.43 


K-means 桶 类 算法 


二 小 


dq 


AGB TZ dii 55 rH] 


11.2 K-means 聚 类 算法 的 特点 及 应 用 
11.2.1 K-means 聚 类 算法 的 特点 


1. 优点 

(1) K-means 聚 类 算法 是 解决 聚 类 问题 的 一 种 经 典 算法 ,算法 简单 .快速 。 

(2) 对 处 理 大 数据 集 , 该 算法 是 相对 可 伸缩 的 和 高 效率 的 ,因为 它 的 复杂 度 大 约 是 
O(nkt) ,其 中 是 所 有 对 象 的 数目 ,k 是 簇 的 数目 ,t 是 迭代 的 次 数 。 通 常 k 二 二 n。 这 个 算 
法 经 常 以 局 部 最 优 结束 。 

(3) 算法 尝试 找 出 使 平方 误差 函数 值 最 小 的 & 个 划分 。 当 簇 是 密集 的 、 球 状 或 团 状 的 ， 
而 簇 与 簇 之 间 区 别 明显 时 , 它 的 聚 类 效果 较 好 。 

2. 缺点 

(1) K-means 聚 类 算法 只 有 在 簇 的 平均 值 被 定义 的 情况 下 才能 使 用 ,不 适用 于 某 些 应 
用 ,如 涉及 有 分 类 属性 的 数据 不 适用 。 

(2) 要 求 用 户 必 须 事 先 给 出 要 生成 的 簇 的 数目 。 

(3) 对 初 值 敏感 ,对 于 不 同 的 初始 值 ,可 能 会 导致 不 同 的 聚 类 结果 。 

(4) 不 适合 于 发 现 非 凸 面 形状 的 簇 ,或 者 大 小 差别 很 大 的 簇 。 

(5) 对 于 “噪声 ”和 孤立 点 数据 敏感 ,少量 的 该 类 数据 能 够 对 平均 值 产生 极 大 影响 。 


11.2.2 K-means 聚 类 算法 的 应 用 


1. K-means 算法 在 散 货 船代 货运 系统 中 的 应 用 

在 散 货 船代 货运 系统 使 用 的 过 程 中 ,动态 业务 数据 的 处 理 及 实时 分 析 有 助 于 决策 者 制 
定 有 效 的 策略 。 航 线 是 船代 公司 考虑 成 本 时 着 重 考虑 的 因素 ,航线 的 繁忙 程度 对 船代 公司 
的 资源 分 配 和 经 营 策略 的 制定 十 分 重要 。K-means 算法 简单 .快速 而 且 能 有 效 地 处 理 大 型 
数据 库 ,是 数据 挖掘 中 解决 聚 类 问题 的 一 种 经 典 算法 ,将 其 应 用 于 散 货船 代 货运 方面 的 航线 
繁忙 度 的 分 析 ,得 出 航线 繁忙 度 分 析 结 果 的 意义 。 

2. K-means 算法 在 客户 细 分 中 的 应 用 

传统 意义 上 ,客户 细 分 往往 根据 客户 的 一 维 属性 来 进行 ,如 金融 行业 根据 客户 资产 多 
少 , 可 以 将 客户 分 为 高 、 中 、 低 端 客户 ,该 细 分 方法 最 大 的 优点 是 简单 ,在 实践 中 简便 易 行 。 
但 是 , 随 着 技术 的 进步 与 客户 需求 的 日 趋 多 样 化 ,以 及 企业 产品 的 不 断 创 新 ,传统 的 客户 细 
分 方法 显现 出 了 明显 的 缺点 ,即使 同 是 高 端 客户 ,客户 对 同一 产品 或 服务 的 需求 也 存在 着 明 
显 差别 ,客户 对 产品 或 服务 的 要 求 日 趋 理性 和 严格 ,需要 一 种 新 的 细 分 方法 。 客 户 细 分 通常 
用 聚 类 分 析 方 法 来 实现 ,其 中 K-means 算法 是 实践 中 最 为 常用 的 数据 挖掘 算法 之 一 ,在 处 
理 大 数据 量 方面 有 绝对 优势 ,而且 可 以 取得 较 好 的 效果 。 


11.3 KK 均值 聚 类 算法 源 程 序 结果 分 析 


K 均值 聚 类 算法 源 程序 包括 Kmeans. java 和 Test. java 两 个 文件 ,相关 程序 和 实验 数 
据 可 从 github 中 下 载 ,网 址 为 https://github. com/guanyaol/k means. git. 











1. Kmeans, java 


package k_means; 


import java. util. ArrayList; 
import java. util. Random; 
//K 均值 聚 类 算法 
public class Kmeans { 
private int k; 
private int m; 
private int dataSetLength; 
private ArrayList < float[ ]> dataSet; 
private ArrayList <float[ ]> center; 
private ArrayList < ArrayList < float[ ]>> cluster; 
private ArrayList < Float jc; 
private Random random; 
//* 设置 需要 分 组 的 原始 数据 集 
* @param dataSet 
x/ 


public void setDataSet(ArrayList < float[ ]» dataSet) ( 
this. dataSet = dataSet; 
} 
/* 获 取 分 类 结果 
* @return 结果 表 
af 
public ArrayList < ArrayList < float[ ]>> getCluster() { 
return cluster; 
} 
/* 构造 函数 , HN i BE A f c 


// 分 成 多 少 簇 
/ kA OCC 


// 数 据 集 元 素 个 数 , 即 数据 集 的 长 度 


// 数 据 集 链 表 
// 中 心 链 表 
11% 


// 误 差 平方 和 ,K 越 接近 dataSetLength, 误差 越 小 


* @param k 簇 数量 , 若 k<= 0 时 ,设置 为 1. 若 k 大 于 数据 源 的 长 度 , 置 为 数据 源 的 长 度 


«/ 
public Kmeans(int k) { 
if (k<= 0) { 
k= 1; 
} 
this.k = k; 
} 


// 初 始 化 
private void init(){ 
m = 0; 
random = new Random() ; 
if(dataSet == null || dataSet.size() == 0){ 
initDataSet(); 
} 
dataSetLength = dataSet.size(); 
if(k> dataSetLength) { 
k= dataSetLength; 


// 生成 随机 数 
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) 
center - initCenters(); 
cluster = initCluster(); 
je = new ArrayList < Float >(); 
I 
// 如 果 调 用 者 未 初始 化 数据 集 , 即 采用 内 部 测试 数据 集 
private void initDataSet(){ 
dataSet = new ArrayList < float[ ]>(); 
// 其 中 (6,3) 是 一 样 的 ,所 以 长 度 为 15 的 数据 集 分 成 14 HEA 15 fc TR FE AB O 
float[][] dataSetArray = new float[ ][]{{8,2}, {3,4}, {2,5}, 
{4,2},{7,3},{6,2},{4,7},{6,3},{5,3}, 
(6,3),(6,9),(1,6), (3,9), {4,1}, {8,6}}; 
for(int i= 0; i<dataSetArray. length; i++) { 
dataSet. add(dataSetArray[ i]) ; 


} 
} 
/* 初始 化 中 心 数据 链表 ,分 成 多 少 簇 就 有 多 少 个 中 心 点 
* @return 中 心 点 集 
*/ 
private ArrayList < float[ ]> initCenters()( 
ArrayList < float[ ]> center = new ArrayList « float[ ]>(); 
int[] randoms = new int[k]; 
boolean flag; 
int temp = random. nextInt(dataSetLength) ; 
randoms[0] = temp; 
for(int i=1;i<k;it++){ 
flag = true; 
while( flag) { 
temp = random, nextInt(dataSetLength) ; 
int j=0; 
while(j <i) { 
if(temp == randoms[j]){ 
break; 


if(j == i)( 
flag - false; 
) 
} 
randoms[i] = temp; 
I 
for(int i=0;i<k;i++){ 
center. add(dataSet. get (randoms[ i])); // 生 成 初始 化 中 心 链表 
} 


return center; 


/x* 初始 化 能 集合 
* @return 一 个 分 为 k 簇 的 空 数据 的 簇 集合 
«/ 
private ArrayList < ArrayList < float[ ]>> initCluster()( 
ArrayList < ArrayList «float[]»» cluster = new ArrayList < ArrayList < float[ ]>>(); 
for (int i=0;i<k;it+){ 
cluster. add(new ArrayList < float[ ]>()); 
} 
return cluster; 
j 
/ x 计算 两 点 之 间 的 距离 
* @param element 
* @param center 
* @return 距离 
«/ 
private float distance(float[] element, float[ ] center) { 
float distance = 0.0f; 
float x 
float y 


element[0] - center[0]; 


element[1] - center[1]; 
flotz = x*x + y*y; 
distance - (float)Math.sqrt(z); 
return distance; 
) 
/ * 获取 距离 集合 中 最 小 距离 的 位 置 
* @param distance 
* 距离 数组 
* @return 最 小 距离 在 距离 数组 中 的 位 置 
*/ 
private int minDistance(float[] distance) { 
float minDistance = distance[0]; 
int minLocation = 0; 
for(int i=1;i<distance. length; i++) { 
if (distance[i] < minDistance) { 
minDistance = distance[ i]; 
minLocation = i; 
Jelse if (distance[i] == minDistance) // 如 果 相 等 ,随机 返回 一 个 位 置 
{ 
if(random.nextInt(10) « 5)( 
minLocation - i; 


} 
return minLocation; 
} 
/* 核心, 将 当前 元 素 放 到 最 小 距离 中 心 相关 的 簇 中 
* 
/ 
private void clusterSet() { 
float[] distance = new float[k]; 
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for (inti = 0; i« dataSetLength; i++) { 
for (int j = 0; j<k; j++) { 
distance[j] = distance(dataSet. get(i), center. get(j)); 
// System. out. println("test2:" + "dataSet["+i+"],center["+j+"], 
//distance =" + distance[j]); 


} 

int minLocation = minDistance(distance) ; 

/ /Systen. out. println("test3:" + "dataSet[" + i+ "],minLocation =" + minLocation) ; 
//System. out. println(); 


cluster. get(minLocation) . add(dataSet. get(i)); 
// 核心 ,将 当前 元 素 放 到 最 小 距离 中 心 相关 的 簇 中 


} 


/x* 求 两 点 误差 平方 的 方法 
* @param element 点 1 
* (Qparam center A2 
* (return 误差 平方 
x/ 
private float errorSquare(float[] element, float[] center) ( 
float x = element[0] - center[0]; 
float y = element[1] - center[1]; 


float errSquare = x * x + y * y; 


return errSquare; 
} 
// 计 算 误差 平方 和 准则 函数 方法 
private void countRule() { 

float jcF = 0; 

for (int i = 0; i<cluster.size(); i++) { 

for (int j = 0; j< cluster. get(i).size(); j++) { 
jcF += errorSquare(cluster. get(i).get(j), center. get(i)); 


} 
jc. add( jcF) ; 
} 


// 设 置 新 的 簇 中 心 方法 
private void setNewCenter() { 
for (int i = 0; i<k; i++) { 
int n = cluster. get(i).size(); 
if (n!= 0) { 
float[] newCenter = { 0, 0 }; 
for (int j = 0; j< n; j++) { 


newCenter[0] += cluster. get(i).get(j)[0]; 
newCenter[1] += cluster. get(i).get(j)[1]; 
} 
// 设 置 一 个 平均 值 
newCenter[0] = newCenter[0] / n; 
newCenter[1] 7 newCenter[1] / n; 
center.set(i, newCenter); 


j 
} 
/* 打印 数据 ,测试 用 
* @param dataArray 数据 集 
* @param dataArrayName 数据 集 名 称 
«/ 
public void printDataArray(ArrayList < float[ ]> dataArray, 
String dataArrayName) { 
for (int i = 0; i< dataArray.size(); i++) { 
System. out. println("print:" + dataArrayName + "[" + i + "] 
+ dataArray.get(i)[0] + "," + dataArray. get(i)[1] 
} 
System. out. println(" 
} 


/ /Kneans 算法 核心 过 程 方法 
private void kmeans() { 
init(); 
//printDataArray(dataSet, " initDataSet"); 
/ /printDataArray(center, "initCenter"); 
// 循 环 分 组 ,直到 误差 不 变 为 止 
while (true) { 
clusterSet(); 
//£for(int i=0;i<cluster. size();i++) 
/A 
//printDataArray(cluster.get(i),"cluster[" + i* "]"); 
//) 
countRule(); 
/ /Systen. out. println("count:" + "jc[" +m+"] 2 " * jc. get(n)); 
/ /Systen. out. println(); 


// 误 差 不 变 了 ,分 组 完成 
if (m!= 0) { 
if (jc.get(m) 一 jc.get(m - 1) == 0) { 
break; 
1 
} 
setNewCenter(); 


//printDataArray(center, "newCenter"); 
mer; 


cluster.clear(); 


={" 
+") 





") 
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cluster = initCluster(); 


//System. out. println("note:the times of repeat:m- " +m);  // 输 出 迭代 次 数 


// 执 行 算法 
public void execute() { 


long startTime = System.currentTimeMillis(); 


Systen. out. println("kmeans begins"); 


kmeans(); 


long endTime = System.currentTimeMillis(); 
System. out. println("kmeans running time =" 


Systen. out. println("kmeans ends"); 


Systen. out. println(); 
} 
2. Test. java 
package k means; 
import java. util. ArrayList; 


public class test ( 


public static void main(String[] args) ( 
// 初 始 化 一 个 Knean 对 象 ,将 k 置 为 10 


Kmeans k = new Kmeans(10) ; 
ArrayList < float[ ]> dataSet 


dataSet. add(new float[] { 1, 
dataSet. add(new float[] { 3, 
dataSet.add(new float[] { 3, 
dataSet. add(new float[] { 5, 
dataSet. add(new float[] { 8, 
dataSet.add(new float[] { 4, 
dataSet. add(new float[] { 6, 
dataSet. add(new float[] { 3, 
dataSet. add(new float[] { 5, 
dataSet.add(new float[] { 4, 
dataSet.add(new float[] { 1, 
dataSet.add(new float[] { 7, 
// 设 置 原始 数据 集 

k. setDataSet (dataSet) ; 

// 执 行 算法 

k. execute() ; 


// 得 到 聚 类 结果 


ArrayList < RrrayList<float[ ]>> cluster 


// 查 看 结果 


for (int i = 0; i<cluster.size(); i++) { 


+ (endTime - startTime) + "ms"); 


= new ArrayList < float[ ]>(); 


2); 
3); 
4) 
6); 
9}); 
5}); 
4); 
9); 
9]; 
2); 
9]; 
8]; 


k.getCluster(); 


k. printDataArray(cluster. get(i), "cluster[" + i + "]"); 


} 
程序 运行 结果 如 图 11-4 所 示 。 
pomeans begins 
kmeans running time=Oms 


kmeans ends 


print:cluster[0] [0]7(3.0,3.0) 
print:cluster[0] [1]-7(3.0, 4.0) 








print:cluster[1] [0]={8.0,9.0) 
print:cluster[1] [1]={7.0,8.0) 








print:cluster[2] [0]={4.0,2.0) 








print:cluster[3] [0]7(1.0,9.0) 
print:cluster[4] [0]-13.0,9.0) 
print:cluster[5] [0]={1.0,2.0) 
print:cluster[6] [0]={5.0,6.0) 
print:cluster[7] [0]=(6.0,4.0) 
print :cluster[8] [0]7(5.0,9.0) 


print:cluster[9] [0]={4.0,5.0) 


fA 11-4 K-means 算法 程序 运行 结果 


原始 数据 集 为 (8,2),(3,4),(2,5),(4,2),(7,3),(6,2),(4,7),(6,3),(5,3),(6,3)， 
6.9), (1,6). (3,9), (4,1). (8.6); 新 增 的 数据 为 (1,2),(3,3),(3,4),(5,6),(8,9),(4， 
5),(6,4),(3,9),(5,9),(4,2),(1,9),(7,8) ,一 共 27 条 数据 。 目 标 为 输出 10 个 聚 类 ,满足 
平方 误差 准则 函数 收敛 。 首 先 程序 任意 选择 10 个 数据 对 象 作为 初始 聚 类 中 心 , 计 算 每 个 剩 
余 对 象 到 10 个 初始 聚 类 中 心 点 的 距离 ,将 剩余 对 象 归 类 给 离 它 最 近 的 中 心 点 所 表示 的 簇 ， 
得 到 中 心 点 分 布 情况 。 然 后 程序 更 新 簇 的 平均 值 , 即 计 算 每 个 对 象 簇 中 对 象 的 平均 值 , 得 到 
新 的 聚 类 中 心 ,同时 计算 误差 平方 和 准则 函数 的 值 ,判断 是 否 收敛 ,再 将 数据 对 象 指派 到 最 
近 的 簇 中 ,如 此 反复 迭代 ,最 终 准则 函数 值 不 再 进行 变化 ,得 到 图 11-4 所 示 的 结果 。 


11.4 基于 阿里 云 数 加 平台 的 K 均值 察 类 算法 实例 


K 均值 诊 类 是 一 种 得 到 最 广泛 使 用 的 聚 类 算法 ,把 个 对 象 分 为 k NR EI A RA 
高 的 相似 度 。 相 似 度 的 计算 根据 一 个 簇 中 对 象 的 平均 值 来 进行 。 算 法 首先 随机 地 选择 个 
对 象 ,每 个 对 象 初始 地 代表 了 一 个 簇 的 平均 值 或 中 心 。 对 剩余 的 每 个 对 象 根据 其 与 各 个 簇 
中 心 的 距离 ,将 它 赋 给 最 近 的 入 ,然后 重新 计算 每 个 簇 的 平均 值 。 这 个 过 程 不 断 重 复 , 直 到 
准则 函数 收敛 。 它 假设 对 象 属性 来 自 于 空间 向 量 ,并 且 目 标 是 使 各 个 群 组 内 部 的 均 方 误差 
总 和 最 小 。 与 分 类 算法 不 同 , 聚 类 算法 处 理 的 是 无 标签 数据 ,因此 ,我 们 对 一 个 自己 随机 创 





K-means R# HIF 


二 小 


um 


AGB TZ dii 5 HH] 





建 的 数据 表 进 行 K 均值 聚 类 算法 操作 。 数 据 信息 如 图 11-5 Bras. 
操作 流程 图 如 图 11-6 所 示 。 








Da fa. 
1 £ (OWE ©) 
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图 11-5 数据 信息 表 图 11-6 操作 流程 图 


该 算法 的 字段 信息 与 参数 设置 如 图 11-7 所 示 , 其 中 ,字段 设置 中 ,特征 列 选择 的 是 数据 
表 中 的 f0 fl 列 , 附 加 列 可 选 , 输 入 表 的 那些 列 附加 输出 到 输出 聚 类 结果 表 , 列 名 以 逗号 分 
隔 。 参 数 设置 中 , 聚 类 数 为 要 处 理 的 数据 的 聚 类 的 个 数 ,这 里 选择 的 是 3。 距离 度量 方式 为 
计算 数据 与 数据 之 间 的 距离 计算 方式 ,有 euclidean( 欧 式 距 离 ) .cosine( 夹 角 余 弦 ) 和 cityblock 
(曼哈顿 距离 )3 种。 质心 初始 化 方法 为 不 同 的 质心 的 选择 方法 ,有 以 下 5 种 选择 方法 ， 

(1) random, 从 输入 数据 表 中 随机 采样 出 K 个 初始 中 心 点 ,初始 随机 种 子 可 以 有 参数 
seed 指定 。 

(2) topk, 从 输入 表 中 读 取 前 K 行 作为 初始 中 心 点 。 

(3) uniform, 从 输入 数据 表 , 按 最 小 到 最 大 值 , 均 匀 计 算出 K 个 初始 中 心 点 。 

(4) kmpp, 使 用 K-means+ + 075 i t. K 个 初始 中 心 点 。 

(5) external ,指定 额外 的 初始 中 心 表 。 

初始 随机 种 子 可 选 , 默 认 值 为 当前 时 间 ,seed 设置 为 固定 值 , 每 次 聚 类 结果 是 稳定 的 。 


Ld + [1,1000] 
3 
距 高 度量 方式 
Eudidean : 














特征 列 支持 nt 和 double 类 型 
已 选择 2 个 字 良 asso 
01 
附加 列 TEO 
| 
Soe 








(a) (b) 
图 11-7 天 均值 算法 的 字段 信息 与 参数 设置 图 


操作 结果 如 图 11-8 所 示 , 图 11-8(a) 为 聚 类 结果 表 , 行 数 等 于 输入 表 总 行 数 ,每 行 的 值 
表示 输入 表 对 应 行 表示 的 点 的 聚 类 编号 ; 图 11-8(b) 为 聚 类 统计 表 , 行 数据 等 于 聚 类 个 数 ， 


每 行 的 值 表 示 当 前 聚 类 包含 的 点 个 数 。 


 dusterindexv — 
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图 11-8 实验 结果 图 


K-means 操作 的 模型 图 如 图 11-9 所 示 。 


KMeans 模 型 mx 
模型 名 称 xab m KMeans 2 185356 vo 
REENA CENTER_BASED 
票 类 数目 3 
Rep a Na 
1 3333333333333333 3.6666666666666665 
2 1 3 
3 1 2 





图 11-9 实验 模型 图 


11.5 基于 MaxCompute Graph 模型 的 
K-means 算法 源 程序 分 析 


1. 场景 和 数据 说 明 

假设 以 下 应 用 场景 , 随 着 音乐 应 用 “虾米 ” 曲 库 的 扩充 以 及 用 户 量 的 增加 ,用 户 可 能 希望 
能 找到 具有 相同 音乐 风格 喜好 的 人 一 起 交流 和 分 享 喜 欢 的 音乐 。 所 以 “虾米 ”平台 可 以 根据 
用 户 所 听 音 乐 的 风格 类 型 ,为 其 推荐 具有 相同 喜好 的 其 他 用 户 , 同 时 也 可 以 将 其 他 用 户 经 常 
听 的 歌曲 推荐 给 用 户 。 通 过 “虾米 "平台 可 以 获得 一 份 用 户 最 近 听 的 200 首 歌曲 中 各 种 音乐 
风格 所 占 数 量 的 数据 ,数据 格式 如 表 11-7 所 示 。 


表 11-7 数据 格式 说 明 

















数据 类 型 数据 说 明 
User id 用 户 标 识 
Style 音乐 风格 
Count 用 户 听 此 种 风格 音乐 数量 
第 
11 
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根据 已 有 数据 ,可 以 求 出 用 户 所 听 歌 曲 中 每 种 风格 所 占 的 百分比 。 出 于 简单 ,这 里 选择 
8 种 用 户 所 听 频 率 最 高 的 音乐 风格 ,基于 用 户 所 听 每 种 风格 音乐 频率 ,可 以 构造 特征 user — 
id, stylel ,style2 ,style3 ,style4 , style5 ,style6 , style7, style8. 其 中 style 表示 对 应 音乐 风格 
的 所 听 频 率 。 生 成 的 特征 表 如 表 11-8 所 示 。 
表 11-8 ”生成 特征 数据 表 
user_id Stylel Style2 Style3 Style4 Style5 Style6 Style? Style8 
































a 0.23 0.31 0.15 0 0.10 0.05 0.13 0.03 
b 0 0.35 0.21 0.11 0.15 0 0.18 0 
2. 问题 分 析 


本 部 分 描述 如 何 利 用 MaxCompute Graph 实现 K-means 聚 类 算法 对 用 户 进行 聚 类 的 
处 理 过 程 。 
步骤 1; 在 KmeansVertexReader 中 ,分 别 读 取 每 条 Record, 记 录 的 数据 点 类 型 为 
KmeansVertex, 设 置 ID 为 user id. Value 为 Style 中 的 值 。 如 前 两 条 记录 输出 如 表 11-9 
所 示 。 
表 11-9 输出 结果 表 








Vertex <ID,Value> 
vo <a'{0.23,0.31,0.15,0,0.10,0.05,0.13,0.03}> 
vl <b, {0,0. 35,0. 21,0. 11,0. 15.0.0. 18,0}> 





步骤 2: 选择 & 个 中 心 点 ,在 createInitialValue 方法 中 , 若 为 初次 迭代 , 则 将 中 心 点 数据 
文件 kmeans_centers 导入 至 KmeansAggrValue 变量 aggrVal. center 中 ,并 将 aggrValue. 
sum 和 aggrValue. count 值 初 始 化 为 0。 若非 初次 运 代 , 则 将 上 一 次 的 选 代 结 果 作为 本 次 迭 
代 的 中 心 点 。 

步骤 3: 利用 aggregate 方法 计算 每 个 点 与 各 个 中 心 点 之 间 的 距离 ,并 将 其 归于 与 其 距 
离 最 小 的 中 心 点 所 在 类 ,同时 更 新 此 类 的 sum 和 count 值 。 

步骤 4: 利用 merge 方法 将 各 个 worker 中 收集 到 的 sum 和 count 进行 合 

步骤 5; terminate 方法 利用 每 个 种 类 的 sum 和 count 值 计算 其 新 的 中 心 点 数据 ,并 将 
其 与 原先 中 心 点 数据 进行 对 比 , 若 新 旧 两 个 中 心 点 之 间 的 距离 的 改变 小 于 给 定 的 阔 值 或 者 
友 代 的 次 数 达 到 先前 所 设 定 的 最 大 迭代 次 数 , 则 终止 迁 代 ; 否则 , 回 到 步骤 2。 

至 此 ,在 迭代 结束 后 ,就 将 最 终 分 类 结果 输出 。 利 用 最 后 的 分 类 结果 虾米 ?平台 可 以 
将 属于 同类 的 用 户 中 尚未 相互 关注 的 用 户 进行 相互 推荐 ,同时 也 可 以 将 同类 用 户 所 听 的 歌 
曲 进行 相互 推荐 。 

3. 关键 代码 实现 




















public static class Kmeans VertexReader extends 
GraphLoader < Text, Tuple, NullWritable, NullWritable> { 
@Override 
public void load(LongWritable recordNum, WritableRecord record, 
MutationContext < Text, Tuple, NullWritable, NullWritable> context) throws IOException { 


KmeansVertex vertex = new KmeansVertex(); 

vertex. setId(new Text( String. valueOf ( recordNum. get()))); 
vertex. setValue(new Tuple(record. getAll())); 

context. addVertexRequest (vertex) ; 


public static class KmeansAggregator extends Aggregator < KmeansAggrValue> { 
(Q SuppressWarnings("rawtypes") 
(QOverride 
public KmeansAggrValue createInitialValue(WorkerContext context) throws IOException { 
KmeansAggrValue aggrVal - null; 
if (context.getSuperstep() == 0) { 
aggrVal = new KmeansAggrValue( ) ; 
aggrVal.centers = new Tuple() ; 
aggrVal. sums = new Tuple(); 
aggrVal. counts = new Tuple(); 
byte[] centers = context. readCacheFile("kmeans centers"); 
String lines[] = new String(centers).split("\n"); 
for (int i = 0; i< lines. length; i++) { 
String[] ss = lines[i].split(","); 
Tuple center = new Tuple(); 
Tuple sum = new Tuple(); 
for (int j = 0; j< ss.length; ++j) { 
center. append(new DoubleWritable(Double. valueOf(ss[j].trim()))); 
sun. append( new DoubleWritable(0.0)); 
} 
LongWritable count = new LongWritable(0); 
aggrVal. sums. append( sum); 
aggrVal. counts. append(count) ; 
aggrVal. centers. append(center) ; 


} 
Jelse ( 
aggrVal = (KmeansAggrValue) context. getLastAggregatedValue(0) ; 
} 
return aggrVal; 
) 
(QOverride 


public void aggregate(KmeansAggrValue value, Object item) { 
int min = 0; 
double mindist = Double. MAX VALUE; 
Tuple point = (Tuple) item; 
for (int i = 0; i< value. centers. size(); i++) { 
Tuple center = (Tuple) value. centers. get(i); 
//use Euclidean Distance, no need to calculate sqrt 
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double dist = 0. 0d; 
for (int j = 0; j «center. size(); j++) { 
double v = ((DoubleWritable) point.get(j)).get() - ((DoubleWritable) center. get 
(j)).get(); 
dist += v * v; 
} 
if (dist < mindist) { 
mindist = dist; 


min = i; 


} 
//update sum and count 
Tuple sum = (Tuple) value. sums. get(min) ; 
for (int i = 0; i< point. size(); i++) { 
DoubleWritable s = (DoubleWritable) sum. get(i); 
s. set(s.get() + ((DoubleWritable) point. get(i)).get()); 
} 
LongWritable count = (LongWritable) value. counts.get(min); 
count. set(count.get() + 1); 
} 
@Override 
public void merge(KmeansAggrValue value, KmeansAggrValue partial) { 
for (int i = 0; i< value. sums. size(); i++) { 
Tuple sum = (Tuple) value. sums. get (i); 
Tuple that = (Tuple) partial. sums. get(i); 
for (int j = 0; j < sum. size(); j++) { 
DoubleWritable s = (DoubleWritable) sum. get( j); 
s. set(s.get() + ((DoubleWritable) that. get(j)).get()); 


} 
for (int i = 0; i< value. counts. size(); i++) { 
LongWritable count = (LongWritable) value. counts. get(i); 
count. set(count.get() + ((LongWritable) partial. counts. get(i)).get()); 


} 
@SuppressWarnings("rawtypes" ) 
@Override 
public boolean terminate(WorkerContext context, KmeansAggrValue value) throws IOException { 
//compute new centers 
Tuple newCenters = new Tuple( value. sums. size()); 
for (int i = 0; i< value. sums. size(); i++) { 
Tuple sum = (Tuple) value. sums. get(i); 
Tuple newCenter = new Tuple(sum. size()); 
LongWritable c = (LongWritable) value. counts. get(i); 


for (int j = 0; j<sum.size(); j++) { 


DoubleWritable s = (DoubleWritable) sum. get(j); 
double val = s.get() / c.get(); 
newCenter. set( j, new DoubleWritable(val)); 
//reset sum for next iteration 
s.set(0.0d); 
$ 
//reset count for next iteration 
c. set (0); 
newCenters. set(i, newCenter); 
} 
//update centers 
Tuple oldCenters = value. centers; 
value.centers = newCenters; 
LOG. info("old centers: " + oldCenters + ", new centers: " + newCenters) ; 
//compare new/old centers 
boolean converged = true; 
for (int i = 0; i< value. centers. size() && converged; i++) { 
Tuple oldCenter = (Tuple) oldCenters. get( i); 
Tuple newCenter = (Tuple) newCenters. get( i); 
double sum = 0. 0d; 
for (int j = 0; j<newCenter. size(); j++) { 
double v = ((DoubleWritable) newCenter.get(j)).get() 
- ((DoubleWritable) oldCenter.get(j)).get(); 


" 


sum += v * v; 


} 
double dist = Math. sqrt (sum) ; 


LOG. info("old center: " + oldCenter + ", new center: " + newCenter + ", dist: 
dist); 


//converge threshold for each center: 0.05 
converged = dist < 0. 05d; 
} 
if (converged || context.getSuperstep() == context.getMaxIteration() - 1) { 
//converged or reach max iteration, output centers 
for (int i = 0; i< value. centers. size(); i++) { 
context. write(((Tuple) value. centers. get(i)).toArray()); 
} 
//true means to terminate iteration 
return true; 
} 
//£alse means to continue iteration 


return false; 
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11.6 小 结 


本 章 详细 地 介绍 了 K-means 算法 的 基本 概念 .基本 原理 ,并 用 实例 说 明 。 同 时 ,还 分 析 
T K-means 算法 的 一 个 具体 源 程序 ,并 介绍 了 该 算法 的 特点 和 存在 的 缺陷 。 最 后 介绍 了 K- 
means 算法 的 应 用 ,从 中 可 以 看 出 K-means 算法 的 应 用 非常 广泛 。 


B 考 B 


1. (iX K-means 算法 的 工作 流程 。 

2. K-means 聚 类 算法 的 优 缺 点 是 什么 ? 

3. 分 别 取 k=2 和 3, 利 用 K-means 聚 类 算法 对 以 下 的 点 聚 类 : (2,1),(1,2),(2,2)， 
(3,2) ,(2,3),(3,3),(2,4),(3,5),(4,4),(5,3) ,并 讨论 & 值 以 及 初始 聚 类 中 心 对 聚 类 结果 
的 影响 。 
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12.1 K- 中 心 点 肾 类 算法 原理 


12.1.1 K- 中 心 点 限 类 算法 原理 解析 


上 一 章 提 到 的 K-means 算法 对 于 离 群 点 是 敏感 的 ,因为 一 个 具有 很 大 的 极端 值 的 对 象 
可 能 显著 地 扭曲 数据 的 分 布 ,平方 误差 函数 的 使 用 更 是 严重 恶化 了 这 一 影响 。 为 了 降低 这 
种 敏感 性 ,可 以 不 采用 簇 中 对 象 的 均值 作为 参照 点 ,而 是 在 每 个 徐 中 选 出 一 个 实际 的 对 象 来 
代表 该 禾 。 其 余 的 每 个 对 象 聚 类 到 与 其 最 相似 的 代表 性 对 象 所 在 的 簇 中 。 这 样 ,划分 方法 
仍然 基于 最 小 化 所 有 对 象 与 其 对 应 的 参照 点 之 间 的 相 异 度 之 和 的 原则 来 执行 。 通 常 ,该 算 
法 重复 迭代 ,直到 每 个 代表 对 象 都 成 为 它 的 簇 的 实际 中 心 点 ,或 最 靠 中心 的 对 象 。 这 种 算法 
BAK 中 心 点 聚 类 算法 。 对 于 K 中 心 点 聚 类 算法 ,首先 随意 选择 初始 代表 对 象 (或 种 子 )。 
只 要 能 够 提高 聚 类 质量 ,迭代 过 程 就 继续 用 非 代 表 对 象 蔡 换 代表 对 象 。 聚 类 结果 的 质量 用 
代价 函数 来 评估 ,该 函数 用 来 度量 对 象 与 其 秘 的 代表 对 象 之 间 的 平均 相 异 度 。 

K- 中 心 点 聚 类 算法 的 基本 思想 为 : 选用 簇 中 位 置 最 中 心 的 对 象 ,试图 对 个 对 象 给 出 
k 个 划分 ,代表 对 象 也 被 称 为 是 中 心 点 ,其 他 对 象 则 被 称 为 非 代 表 对 象 。 最 初 随机 选择 个 
对 象 作 为 中 心 点 ,该 算法 反复 地 用 非 代表 对 象 来 代替 代表 对 象 ,试图 找 出 更 好 的 中 心 点 
改进 聚 类 的 质量 ; 在 每 次 迭代 中 ,所 有 可 能 的 对 象 对 被 分 析 , 每 个 对 中 的 一 ae 
点 ,而 另 一 个 是 非 代表 对 象 。 每 当 重 新 分 配 发 生 时 ,平方 误差 所 产生 的 差别 对 代价 函数 有 影 
响 。 因 此 ,如 果 一 个 当前 的 中 心 点 对 象 被 非 中 心 点 对 象 所 代 蔡 ,代价 函数 将 计算 平方 误差 值 
所 产生 的 差别 。 蔡 换 的 总 代价 是 所 有 非 中 心 点 对 象 所 产生 的 代价 之 和 。 如 果 总 代价 是 负 
的 ,那么 实际 的 平方 误差 将 会 减 小 ,代表 对 象 0; 可 以 被 非 代 表 对 象 O; 替代 。 如 果 总 代价 是 
正 的 , 则 当前 的 中 心 点 O; 被 认为 是 可 接受 的 ,在 本 次 迭代 中 没有 变化 。 

在 KK- 中心 点 聚 类 算法 中 需要 计算 所 有 非 选 中 对 象 与 选中 对 象 之 间 的 相 异 度 作为 分 组 
的 依据 。 针 对 不 同 的 数据 类 型 有 不 同 的 相 异 度 或 距离 函数 ,因此 相 异 度 或 距离 函数 的 选择 
依据 数据 对 象 的 数据 类 型 。 一 般 情况 下 ,数据 对 象 为 数值 型 .选用 曼哈顿 距离 。 

dG,j) —| xa —zg || xa — xig |H- b xs — cl (12-1) 

此 处 : P— Graeca ett ems A FH Gra ,Tjz，*… ,Xm) 是 两 个 n 维 的 数据 对 象 。 具 体 应 用 中 
应 根据 不 同 的 数据 类 型 选用 不 同 的 距离 函数 。 

为 了 判定 一 个 非 代 表 对 象 O 是 否 是 当前 一 个 代表 对 象 0; 的 好 的 蔡 代 ,对 于 每 一 个 非 
中 心 点 对 象 0; ,有 以 下 4 种 情况 需要 考虑 。 
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第 一 种 情况 : 假设 OHO. 代替 作为 新 的 中 心 点 ,0O; 当前 隶属 于 中 心 点 对 象 0;。 如 果 

O; BES AL On RE im. MA O; REA AA On FRA A 
Cin = d(j.m) —dCG.D 

第 二 种 情况 : 假设 O; HO. 代替 作为 新 的 中 心 点 ,O; 当前 隶属 于 中 心 点 对 象 O;。 如 果 
O; 离 这 个 新 的 中 心 点 O 最近 ,那么 O; 被 分 配给 On, 蔡 换代 价 为 Cin —dG-10—dG.D. 

第 三 种 情况 : 假设 O; VELO, 代替 作为 新 的 中 心 点 ,但 是 O; 当前 隶属 于 另 一 个 中 心 点 对 
BOmsmAi, 如果 O; RRB Om 最 近 , 那 么 对 象 的 隶属 不 发 生变 化 , 蔡 换代 价 为 Ci 一 0。 

第 四 种 情况 : 假设 O; 被 0s 代替 作为 新 的 中 心 点 ,但 是 O; 当前 隶属 于 另 一 个 中 心 点 对 
SO, mAi, WR O; 离 这 个 新 的 中 心 点 On 最 近 , 那 么 O; 被 重新 分 配给 Oi; ,替换 代价 为 
Cin =d(j sh) —dGj ym). 

K- 中 心 点 聚 类 算法 描述 如 下 。 

输入 : RRE k 和 包含 n 个 对 象 的 数据 库 。 

输出 :& 个 簇 ,使 得 所 有 对 象 与 其 最 近 中 心 点 的 相 异 度 总 和 最 小 。 





伪 代 码 描述 如 下 。 

CD 任意 选择 个 对 象 作为 初始 的 簇 中 心 点 。 

(2) Repeat 

(3) 指派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 表示 的 簇 。 
(4) Repeat 

(5) 选择 一 个 未 被 选择 的 中 心 点 O;。 

(6) Repeat 


CD) 选择 一 个 未 被 选择 过 的 非 中 心 点 对 象 0。 

(8) 计算 用 O; RE O 的 总 代价 并 记录 在 S 中 。 

(9) Until 所 有 非 中 心 点 都 被 选择 过 。 

(10) Until 所 有 的 中 心 点 都 被 选择 过 。 

(11) If 在 S 中 的 所 有 非 中 心 点 代替 所 有 中 心 点 后 的 计算 出 总 代价 有 小 于 0 的 存在 ， 
then 找 出 S 中 的 用 非 中 心 点 替代 中 心 点 后 代价 最 小 的 一 个 ,并 用 该 非 中 心 点 替代 对 应 的 中 
心 点 ,形成 一 个 新 的 上 个 中 心 点 的 集合 。 

(12) Until 没有 再 发 生 簇 的 重新 分 配 , 即 所 有 的 S 都 大 于 0。 

步骤 (1) 一 (10) 是 两 个 循环 ,让 所 有 的 点 都 被 选择 过 ; 步骤 (11) 一 (12) 是 一 个 循环 , 找 
H k DIR. 


12.1.2 K- 中 心 点 聚 类 算法 实例 分 析 


【 例 12.1】 假如 空间 中 的 五 个 点 {A,B,C,D,E), 各 点 之 间 的 距离 关系 如 表 12-1 所 
示 , 根 据 所 给 的 数据 对 其 运行 K- 中 心 点 算法 实现 聚 类 划分 ( 设 k 二 2)。 

解 : 算法 执行 步骤 如 下 。 

第 一 步 建立 阶段 : 设 从 5 个 对 象 中 随机 抽取 的 2 个 中 心 点 为 {A,B}, 点 C 到 点 A 与 点 
B 的 距离 相同 , 均 为 2, 故 随机 将 其 划 入 A 中 。 同 理 , 将 点 下 划 入 B 中 , 则 样本 被 划分 为 {A， 
C.D) fI (B.E), 


表 12-1 样本 点 间距 离 














样本 点 A B C D E 
A 0 1 2 2 3 
B 1 0 2 4 3 
C 2 2 0 1 5 
D 2 4 1 0 3 
E 3 3 5 3 0 




















第 二 步 交 换 阶段 : 假定 中 心 点 {A,B} 分 别 被 非 中 心 点 {C,D,E)} 蔡 换 , 根 据 K- 中 心 点 算 
法 需要 计算 下 列 代价 TCac .TCAp 、TCAE 、TCac、TCep 和 TCae。 其 中 TCac 表 示 中 心 点 A 被 
非 中 心 点 C 代替 后 的 总 代价 。 下 面 以 TCac 为 例 说 明 计算 过 程 。 

当 A 被 C 蔡 换 以 后 ,看 各 对 象 的 变化 情况 。 

DA: A 不 再 是 一 个 中 心 点 ,C 称 为 新 的 中 心 点 ,因为 A 离 B 比 A 离 C 近 ,A 被 分 配 
到 B 中 心 点 代表 的 簇 ,属于 上 述 第 一 种 情况 。Caac 二 4d(A,B) 一 4d(A,A)==1 一 0=1。 

(2) B: B 不 受 影响 ,属于 上 面 的 第 三 种 情况 。Caac 一 0 

(3) C; C 原 先 属于 人 A 中心 点 所 在 的 簇 , 当 A 被 C KUL. C 是 新 中 心 点 ,属于 上 面 
的 第 二 种 情况 。Ccac==d(C,C) 一 4d(A,C)=0 一 2== 一 2。 

(D D: D 原先 属于 A 中 心 点 所 在 的 簇 , 当 A 被 C 替换 以 后 , 离 D 最 近 的 中 心 点 是 C. 
属于 上 面 的 第 二 种 情况 。Cpac=d(D,C) 一 4(D,A)=1 一 2= 一 1。 

(5) E. E 原先 属于 B 中 心 点 所 在 的 艇 , 当 A 被 C 替换 以 后 , 离 D 最 近 的 中 心 点 仍然 是 
B, 属 于 上 面 的 第 三 种 情况 。Ceac 一 0。 

因此 ,TCAc 王 CaAAc 十 Caac 十 Ccac 十 Cpac 十 CFAc 一 1 十 0 一 2 一 1 十 0 2。 同 理 , 可 以 计算 
tH: TCap 2. TCE 1. TCac 2. TCsp — —2. TCre 2。 在 上 述 代价 计算 完毕 后 ， 
我 们 要 选取 一 个 最 小 代价 ,显然 有 多 种 替换 可 以 选择 ,选择 第 一 个 最 小 代价 的 替换 (也 就 是 
A 替换 C) ,这 样 ,样本 被 重新 划分 为 {A,B,E) 和 {C,D} 两 个 徐 。 通 过 上 述 计算 ,已 经 完成 了 
-中 心 点 算法 的 第 一 次 迭代 。 在 下 一 次 迭代 中 ,将 用 非 中 心 点 {A,D,E} 奉 换 中 心 点 {B,C})， 
找 出 具有 最 小 代价 的 蔡 换 。 一 直 重 复 上 述 过 程 ,直到 代价 不 再 减少 为 止 。 


12.2 天 -中 心 点 聚 类 算法 的 特点 及 应 用 


12.2.1 K- 中 心 点 聚 类 算法 的 特点 


K- 中 心 点 聚 类 算法 的 优势 为 : 对 噪声 点 /孤立 点 不 敏感 ,具有 较 强 的 数据 鲁 棒 性 ; 聚 类 
结果 与 数据 对 象 点 输入 顺序 无 关 ; 聚 类 结果 具有 数据 对 象 平移 和 正 交 变换 的 不 变性 等 。 

该 算法 缺陷 在 于 聚 类 过 程 的 高 耗 时 性 。 对 于 大 数据 集 ,K- 中 心 点 聚 类 过 程 缓慢 的 主要 
原因 在 于 : 通过 迭代 来 寻找 最 佳 的 聚 类 中 心 点 集 时 ,需要 反复 地 在 非 中 心 点 对 象 与 中 心 点 
对 象 之 间 进 行 最 近邻 搜索 ,从 而 产生 大 量 非 必需 的 重复 计算 。 
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12.2.2 K- 中 心 点 聚 类 算法 的 应 用 


1. K- 中 心 点 聚 类 算法 在 暂 住 人 口 分 析 中 的 应 用 

人 口 资源 是 最 具 战 略 性 的 资源 ,作为 世界 上 人 口 最 多 的 国家 ,加 强人 口 管理 现代 化 ,对 
于 我 们 国家 各 项 事业 的 发 展 至 关 重要 ,其 中 暂 住 人 口 管理 就 关系 着 治安 管理 。 把 K- 中 心 点 
聚 类 算法 应 到 辕 住 人 口 的 挖 握 中 ,可 以 发 现 不 同 特征 的 辕 住 人 改 , 对 辕 住 人 口 的 调整 和 控 
制 有 很 大 的 帮助 。 

2. K- 中 心 点 算法 在 软件 测试 中 的 应 用 

在 软件 测试 过 程 中 ,测试 用 例 集 的 好 坏 直接 决定 了 软件 测试 的 效率 高 低 。 如 何在 约 减 
率 和 错误 检测 率 中 寻找 到 平衡 点 依然 是 一 个 有 待 解决 的 难题 。 采 用 聚 类 分 析 中 的 划分 方法 
K- 中 心 点 方法 对 原始 测试 用 例 集 进行 聚 类 ,根据 聚 类 产生 的 结果 和 测试 需求 集 从 各 簇 中 选 
择 测 试用 例 ,以 此 构成 约 简 后 测试 用 例 集 ,能 大 幅度 地 降低 测试 运行 代价 。 


12.3 KK- 中 心 点 算法 源 程序 结果 分 析 


K- 中 心 点 算法 源 程 序 包含 如 下 文件 : Cluster. java, Cluster Analysis. java, DataPoint. 
java、Mediod. java 和 TestMain. java。 相 关 程 序 和 实验 数据 可 从 github 中 下 载 ,网 址 为 
https://github. com/guanyaol/kmediods. git. 























1. Cluster, java 


package kmedoids; 
import java. util. ArrayList; 


public class Cluster { 

private String clusterName; IE x2 

private Mediod medoid; / STR B 

private ArrayList <DataPoint > dataPoints; ITIP BEA 

public Cluster(String clusterName) { 
this.clusterName = clusterName; 
this.medoid = null; //will be set by calling setCentroid() 
dataPoints = new ArrayList < DataPoint >(); 

} 

public void setMedoid(Mediod c) { 
medoid = c; 

) 

public Mediod getMedoid() { 
return medoid; 

} 

public void addDataPoint(DataPoint dp) { //called from CAInstance 
dp. setCluster(this) ; // 标 注 该 类 簇 属于 某 点 ,计算 欧式 距离 
this. dataPoints. add(dp) ; 


public void removeDataPoint(DataPoint dp) { 
this. dataPoints. remove(dp) ; 

} 

public int getNumDataPoints() { 
return this. dataPoints. size(); 

} 

public DataPoint getDataPoint(int pos) { 
return (DataPoint) this. dataPoints. get(pos) ; 

} 

public String getName() { 
return this. clusterName; 

} 

public ArrayList < DataPoint > getDataPoints() { 
return this. dataPoints; 

} 

} 


2. ClusterAnalysis, java 


package kmedoids; 
import java. util. ArrayList; 


public class ClusterAnalysis ( 


private Cluster[] clusters; LIRAK f 

private int miter; // 和 迭代 次 数 

private ArrayList <DataPoint > dataPoints = new ArrayList <DataPoint >(); 
private int dimNum; // 维 度 


public ClusterAnalysis(int k, int iter, ArrayList < DataPoint > dataPoints, 
int dimNum) { 
clusters = new Cluster[k]; TEBE 
for (int i = 0; ixk; i++) { 
clusters[i] = new Cluster("Cluster:" + i); 
} 
this.miter = iter; 
this.dataPoints = dataPoints; 
this.dimNum = dimNum; 
} 
public int getIterations() { 
return miter; 
} 
public ArrayList < DataPoint >[ ] getClusterOutput() { 
ArrayList < DataPoint > v[] = new ArrayList[clusters. length]; 
for (int i = 0; i< clusters. length; i++) { 
v[i] = clusters[ i]. getDataPoints(); 
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) 
return v; 
) 
public void startAnalysis(double[ ][ ] medoids) { 
setInitialMedoids(medoids); 
double[][] newMedoids = medoids; 
double[ ][] oldMedoids = new double[medoids.length][this.dimNum]; 
while (! isEqual(oldMedoids, newMedoids)) { 
for (intm = 0; m< clusters. length; m++) (— // GE OT MATELY jx 
clusters[m].getDataPoints().clear(); 
i 
for (int j = 0; j < dataPoints.size(); j++) { 
int clusterIndex - 0; 
double minDistance - Double.MAX VALUE; 
for (int k = 0; k< clusters. length; k++) (// 34] Ir FE AS AJR FA HE 
double eucDistance = dataPoints. get(j) 
. testEuclideanDistance(clusters[k].getMedoid()); 
if (eucDistance < minDistance) ( 
minDistance - eucDistance; 


clusterIndex - k; 


} 

// 将 该 样本 点 添加 到 该 类 簇 

clusters[clusterIndex]. addDataPoint (dataPoints. get(j)); 
} 
for (int m = 0; m<clusters. length; m**) { 

clusters[m]. getMedoid(). calcMedoid( ) ; // 重 新 计算 各 类 簇 的 质点 
} 
for (int i = 0; i< medoids. length; i++) { 

for (int j = 0; j< this. dimNum; j++) { 

oldMedoids[i][j] = newMedoids[i][j]; 


} 
for (int n = 0; n< clusters. length; n++) { 
newMedoids[n] = clusters[n].getMedoid().getDimensioin(); 


this. miter++; 


} 
private void setInitialMedoids(double[][ ] medoids) { 
for (intn = 0; n< clusters. length; n++) ( 
Mediod medoid = new Mediod(medoids[n]); 
clusters[n]. setMedoid(medoid); 
medoid. setCluster(clusters[n]); 


} 
private boolean isEqual(double[ ][ ] oldMedoids, double[][] newMedoids) { 
boolean flag - false; 
for (inti = 0; i< oldMedoids.length; i++) ( 
for (int j = 0; j < oldMedoids[i].length; j++) { 
if (oldMedoids[i][j] != newMedoids[i][j]l) { 


return flag; 


} 
} 
flag = true; 
return flag; 


} 
3. DataPoint, java 


package kmedoids; 
import java. util. ArrayList; 


public class DataPoint { 


private double dimension[]; // 样 本 点 的 维度 
private String pointName; // 样 本 点 名 字 

private Cluster cluster; MEN 

private double euDt; /人 /样本 点 到 质点 的 距离 


public DataPoint(double dimension[ ]，String pointName) { 
this.dimension = dimension; 
this. pointName = pointName; 
this.cluster = null; 
} 
public void setCluster(Cluster cluster) { 
this.cluster = cluster; 
H 
public double calEuclideanDistanceSum() ( 
double sum - 0.0; 
Cluster cluster = this.getCluster(); 
ArrayList < DataPoint > dataPoints = cluster.getDataPoints(); 
for (int i = 0; i<dataPoints.size(); i++) { 
double[] dims = dataPoints.get(i).getDimensioin(); 
for (int j = 0; j< dims. length; j++) { 
double temp = Math. pow((dims[j] - this.dimension[j]), 2); 
sum = sum + temp; 


} 
return Math. sqrt(sum) ; 
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public double testEuclideanDistance(Mediod c) { 

double sum = 0.0; 

double[] cDim = c.getDimensioin(); 

for (inti = 0; i< dimension. length; i++) ( 
double temp = Math.pow((dimension[i] - cDim[i]), 2); 
sum = sum + temp; 

} 

return Math. sqrt(sum) ; 


public double[ ] getDimensioin() { 


return this. dimension; 


} 
public Cluster getCluster() { 
return this. cluster; 


} 
public double getCurrentEuDt() { 
return this. euDt; 


} 
public String getPointName() { 
return this. pointName; 


} 
4. Mediod. java 


package kmedoids; 
import java. util. ArrayList; 


public class Mediod { 





private double dimension[]; // 质 点 的 维度 
private Cluster cluster; // 所 属 类 簇 
private double etdDisSum; / /Medoid Fi) 4 25 f «p Hir 3 ff EK RPE 6 ZA 


public Mediod(double dimension[]) ( 
this.dimension = dimension; 
} 
public void setCluster(Cluster c) { 
this.cluster = c; 
} 
public double[ ] getDimensioin() { 
return this. dimension; 
} 
public Cluster getCluster() { 
return this. cluster; 
} 
Public void calcMedoid() { // 取 代价 最 小 的 点 
calcEtdDisSum(); 
double minEucDisSum = this.etdDisSum; 
ArrayList <DataPoint > dps = this.cluster.getDataPoints(); 
for (int i = 0; i< dps. size(); i++) { 
double tempeucDisSum = dps. get( i). calEuclideanDistanceSum( ) ; 


if (tempeucDisSum < minEucDisSum) { 
dimension = dps. get(i).getDimensioin(); 
minEucDisSum = tempeucDisSum; 


} 


// 计 算 该 Medoid F) E] Z S AT FEAR js IRL EK IRIE BRIT 
private void calcEtdDisSum() { 


double sum 


= 0.0; 


Cluster cluster = this.getCluster(); 


ArrayList < 


DataPoint > dataPoints = cluster. getDataPoints(); 


for (int i = 0; i« dataPoints.size(); i++) { 
double[] dims = dataPoints.get(i).getDimensioin(); 
for (int j = 0; j< dims. length; j++) { 
double temp = Math.abs(dims[j] - this. dimension[j]); 
sum = sum + temp; 


i 


etdDisSum - sum; 


} 
5. TestMain. java 


package kmedoids; 


import java. util. ArrayList; 


import java. util. Iterator; 


public class TestMain ( 
public static void main(String args[]) ( 


ArrayList < 
double 
double 
double 
double 
double 
double 
double 
double| 
double| 
double| 
double| 
double 
double| 
double| 
double 
double| 
double| 
dataPoints. 
dataPoints. 
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DataPoint > dataPoints = new ArrayList < DataPoint >(); 
= {2,3}; 

= {2,4}; 

= {1,4}; 

= {1,3}; 

= {2,2}; 

= {3,2}; 

= {8,7}; 

= {8,6}; 

= (77h 

= {7,6}; 

= {8,5}; 

= { 100, 2}; IWA 
= {8, 20}; 

= {8, 19}; 

= {7, 18}; 

= {7,17}; 

= {7, 20}; 

add(new DataPoint(a, "a")); 

add(new DataPoint(b, "b")); 
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dataPoints. add(new DataPoint(c, "c")); 
dataPoints. add(new DataPoint(d, "d")); 
dataPoints. add(new DataPoint(e, "e")); 
dataPoints. add(new DataPoint(f, "f")); 
dataPoints. add(new DataPoint(g, "g")); 
dataPoints. add(new DataPoint(h, "h")); 
dataPoints. add(new DataPoint(i, "i")); 
dataPoints. add(new DataPoint(j, "j")); 
dataPoints. add(new DataPoint(k, "k")); 
dataPoints. add(new DataPoint(1, "1")); 
dataPoints.add(new DataPoint(m, "m")); 
dataPoints.add(new DataPoint(n, "n")); 
dataPoints.add(new DataPoint(o, "o")); 
dataPoints.add(new DataPoint(p, "p")); 
dataPoints.add(new DataPoint(q, "q")); 
ClusterAnalysis ca = new ClusterAnalysis(3, 0, dataPoints, 2); 
double[ J[] cen = { {8,7}, (8,6), (2, 7) ; 
ca. starthnalysis(cen); 
ArrayList < DataPoint >[] v = ca.getClusterOutput(); 
for (int ii = 0; ii<v. length; ii++) { 

ArrayList tempV = v[ii]; 

System. out. println(" ----------- Cluster" + ii + "--------- "y 

Iterator iter = tempV.iterator(); 

while (iter. hasNext()) { 

DataPoint dpTemp = (DataPoint) iter. next(); 
System. out. println( dpTemp. getPointName()) ; 


} 

程序 运行 结果 如 图 12-1 所 示 。 

结果 分 析 : 如 运行 结果 图 12-1 所 示 。 程 序 通过 po Giuscera 
“ClusterAnalysis ca = new Cluster Analysis (3.0. dataPoints. 
2) ”语句 设置 相关 参数 ,3 表示 期 望 得 到 的 簇 的 数目 ,目标 输出 
29 3 f 0 表示 初始 迭代 次 数 ,dataPoints 表示 要 处 理 的 数据 
集 ,2 表示 维度 , 即 每 个 点 是 二 维 的 。 首 先进 行 初始 化 ,起 初时 
随机 确定 3 个 点 g 一 (8,6),h 一 (8.7).i 一 (7,.7) 为 中 心 点 , 指 
派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 表示 的 簇 ,得 到 中 心 上 
点 分 布 情况 。 然 后 经 过 K- 中 心 点 算法 处 理 , 所 有 可 能 的 对 象 “|---------- ~Cluster2--------- 
被 分 析 , 计 算 用 非 中 心 点 代 蔡 中 心 点 的 总 代价 并 记录 ,如 果 在 
记录 中 有 小 于 0 的 存在 , 找 出 用 非 中 心 点 替代 中 心 点 后 代价 
最 小 的 一 个 ,并 用 该 非 中 心 点 替代 对 应 的 中 心 点 ,形成 3 个 新 上 
T f rl UC Bic 3. 35 AR LB AS ER "E HE ET BT I BO. Ee 2 13 580 
以 ghi 为 中 心 点 的 3 个 簇 。 图 12-1 K- 中 心 点 算法 程序 

运行 结果 





12.4 小 结 
本 章 详细 地 介绍 了 K- 中 心 点 算法 的 基本 概念 .基本 原理 ,并 用 实例 来 进行 了 说 明 ,同时 


还 分 析 了 -中 心 点 算法 的 一 个 具体 的 源 程序 ,并 介绍 了 该 算法 的 特点 和 存在 的 缺陷 ,最 后 
介绍 了 K- 中 心 点 算法 的 应 用 ,从 中 可 以 看 出 K- 中 心 点 算法 的 应 用 非常 广泛 。 


思 考 B 
l. 简 述 K- 中 心 点 算法 的 原理 。 


2. 简 述 K- 中 心 点 算法 的 优 缺 点 。 
3. 编程 实现 K- 中 心 点 算法 。 
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13 X 自 组 织 神 经 网 络 聚 类 算法 





13.1 SOM 网 络 简 介 


生物 学 研究 表明 ,在 人 脑 的 感觉 通道 上 ,神经 元 的 组 织 原理 是 有 序 排列 的 。 当 外 界 的 特 
定时 空 信息 输入 时 ,大 脑 皮层 的 特定 区 域 兴奋 ,而 且 类 似 的 外 界 信息 在 对 应 的 区 域 是 连续 映 
像 的 。 生 物 视网膜 中 有 许多 特定 的 细胞 对 特定 的 图 形 比 较 敏感 , 当 视 网 膜 中 有 若干 个 接收 
单元 同时 受 特 定 模式 刺激 时 ,就 使 大 脑 皮层 中 的 特定 神经 元 开始 兴奋 ,输入 模式 接近 ,与 之 
对 应 的 兴奋 神经 元 也 接近 ; 在 听觉 通道 上 ,神经 元 在 结构 排列 上 与 频率 的 关系 十 分 密切 ,对 
于 某 个 频率 ,特定 的 神经 元 具有 最 大 的 响应 ,位 置 相 邻 的 神经 元 具有 相近 的 频率 特征 ,而 远 
离 的 神经 元 具有 的 频率 特征 差别 也 较 大 。 大 脑 皮层 中 神经 元 的 这 种 响应 特点 不 是 先天 安排 
好 的 ,而 是 通过 后 天 的 学 习 自 组 织 形成 的 。 

据 此 芬兰 Helsinki 大 学 的 Teuvo Kohonen T. 教授 提出 了 一 种 自 组 织 特征 映射 网 络 
(Self-organizing feature Map. SOM) . X. f Kohonen 网 络 。Kohonen 认为 ,一 个 神经 网 络 接 
受 外 界 输入 模式 时 ,将 会 分 为 不 同 的 对 应 区 域 ,各 区 域 对 输入 模式 有 不 同 的 响应 特征 ,而 这 
个 过 程 是 自动 完成 的 。SOM 网 络 正 是 根据 这 一 看 法 提出 的 ,其 特点 与 人 脑 的 自 组 织 特性 相 
类 似 。SOM 的 目标 是 用 低 维 ( 通 常 是 二 维 或 三 维 ) 目标 空间 的 点 表示 高 维 源 空间 中 的 所 有 
点 , 尽 可 能 地 保持 点 间 的 距离 和 邻近 关系 (拓扑 关系 ) 。 


13.2. 竞争 学 习 算 法 基础 


13.2.1 SOM 网 络 结构 


1. 定义 

自 组 织 神经 网 络 是 无 导师 学 习 网 络 。 它 通过 自动 寻找 样本 中 的 内 在 规律 和 本 质 属性 ， 
自 组 织 、 自 适应 地 改变 网 络 参数 与 结构 。 

2. 结构 

SOM 为 层次 型 结构 ,典型 结构 为 输入 层 加 竞争 层 ,如 图 13-1 所 示 。 

输入 层 : 接受 外 界 信息 ,将 输入 模式 向 竞争 层 传递 ,起 “观察 "作用 。 

竞争 层 : 负责 对 输入 模式 进行 “分 析 比 较 ”, 寻 找 规律 并 归 类 。 

















图 13-1 自 组 织 神经 网 络 结构 


13.2.2 SOM 网 络 概述 


l. 分 类 与 输入 模式 的 相似 性 

分 类 是 在 类 别 知识 等 导师 信号 的 指导 下 ,将 待 识别 的 输入 模式 分 配 到 各 自 的 模式 类 中 。 
无 导师 指导 的 分 类 称 为 聚 类 , 聚 类 的 目的 是 将 相似 的 模式 样本 划 归 一 类 ,而 将 不 相似 的 分 离 
开 来 ,实现 模式 样本 的 类 内 相似 性 和 类 间 分 离 性 。 由 于 无 导师 学 习 的 训练 样本 中 不 含 期 户 
输出 ,因此 对 于 某 一 输入 模式 样本 应 属于 哪 一 类 并 没有 任何 先 验 知识 。 对 于 一 组 输入 模式 ， 
只 能 根据 它们 之 间 的 相似 程度 来 分 为 若干 类 ,因此 相似 性 是 输入 模式 的 聚 类 依据 。 
2. 相似 性 测量 
神经 网 络 的 输入 模式 向 量 的 相似 性 测量 可 用 向 量 之 间 的 距离 衡量 。 常 用 的 方法 有 欧 氏 
距离 法 和 余弦 法 两 种 。 

1) 欧式 距离 法 

d XX; 为 两 个 行 向量 , 其 间 的 欧式 距离 : 

d= | X—Xil| = V(X— XX— X)" (13-1) 

d 越 小 ,X 5 X, 越 接近 ,两 者 越 相似 ; 4d=0W.X=Xi; 以 d= 二 T( 常 数 ) 为 判 据 ,可 对 
输入 向 量 模式 进行 聚 类 分 析 。 

如 图 13-2 所 示 , 设 da RIR X; X; 间 的 欧式 距离 ,由 于 dio .dz d SINT. Te das diss. 
dis SF Ty ifi di > TG=4.5.6). do TCGi 4.5.6). da >TU=4,5.6). BO HA Bit 
Xi Xo Xa Xi, Xs, Xs 分 为 类 1 和 类 2 两 大 类 。 
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图 13-2 基于 欧式 距离 法 的 模式 分 类 


2) 余弦 法 
设 XX 为 两 个 行 向 量 , 其 间 的 夹 角 余 弦 : 
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9 越 小 ,X 与 Xi 越 接近 ,两 者 越 相似 ; 当 9 一 0 时 ,cosp 一 1.X 一 Xi; BEBE DI gm gi 为 
判 据 可 进行 聚 类 分 析 。 

3. 竞争 学 习 原理 

竞争 学 习 规则 的 生理 学 基础 是 神经 细胞 的 侧 抑制 现象 ; 当 一 个 神经 细胞 兴奋 后 ,会 对 
其 周围 的 神经 细胞 产生 抑制 作用 。 最 强 的 抑制 作用 是 竞争 获胜 的 “ 唯 我 独 兴 ”, 这 种 做 法 称 
为“ 胜 者 为 王 "(Winner-Take-All, WTA) 。 竞争 学 习 规则 就 是 从 神经 细胞 的 侧 抑制 现象 区 
得 的 。 它 的 学 习 步骤 如 下 。 

CD. 向 量 归 一 化 。 对 自 组 织 网 络 中 的 当前 输入 模 
式 向 量 X( 行 向 量 ) ,竞争 层 中 各 神经 元 对 应 的 内 星 权 向 
HE w G=1,2, ,mm)( 行 向 量 ), 全 部 进行 归 一 化 处 理 ， 
如 图 13-3 Bi ABIX AW, : 


X 


coso = (13-2) 





W; 





-TT nwr 009 
(2) 寻找 获胜 神经 元 。 将 六 与 竞争 层 所 有 神经 元 对 
应 的 内 星 权 向 量 歼 (j= 二 1,2,…,m) 进行 相似 性 比较 。 
最 相似 的 神经 元 获胜 , 权 向 量 为 歼 )* : 
| &—W; l= min (| X-W; |) 


JE11,2，…n) 























>W, XT = max(W, X7) (13-4) 
(3) 网 络 输出 与 权 调 整 。 
Tz WTA 学 习 法 则 ,获胜 神经 元 输出 为 “1”, 其 余 为 0。 即 : 
LE IT 
»a+D=4 (13-5) 
0 jzj* 
只 有 获胜 神经 元 才 有 权 调 整 其 权 向 量 W;* 。 其 权 向 量 学 习 调 整 如 下 。 
We +) =W; G) --AW;: =W () +a(X—W;) 
| . (13-6) 
W;G+D=W;® jzj 


0 二 a<<1 为 学 习 率 ,a 一 般 随 着 学 习 的 进展 而 减 小 , 即 调整 的 程度 越 来 越 小 , 趋 于 聚 类 中 心 。 
(4) 重新 归 一 化 处 理 。 归 一 化 后 的 权 向 量 经 过 调整 后 ,得 到 的 新 向 量 不 再 是 单位 向 量 ， 
因此 要 对 学 习 调整 后 的 向 量 重新 进行 归 一 化 ,循环 运算 ,直到 学 习 率 a 衰减 到 0。 





13.3 SOM 网 络 原理 


13.3.1 SOM 网 络 的 拓扑 结构 


从 网 络 结构 上 来 说 ,SOM 网 络 最 大 的 特点 是 神经 元 被 放置 在 一 维 、 二 维 或 者 更 高 维 的 
网 格 结 点 上 。 图 13-4 就 是 最 普遍 的 自 组 织 特征 映射 二 维 网 格 模型 。 











wy 输入 层 


1 i N 
图 13-4 二 维 SOM 网 格 模型 


SOM 网 络 的 一 个 典型 特性 就 是 可 以 在 一 维 或 二 维 的 处 理 单元 阵列 上 ,形成 输入 信号 的 
特征 拓扑 分 布 ,因此 SOM 网 络 具 有 抽取 输入 信号 模式 特征 的 能 力 。SOM 网 络 一 般 只 包含 
有 一 维 阵列 和 二 维 阵列 ,但 也 可 以 推广 到 多 维 处 理 单元 阵列 中 去 。 下 面 只 讨论 应 用 较 多 的 
二 维 阵列 。 

输入 层 是 一 维 的 神经 元 ,具有 N 个 结 点 ,竞争 层 的 神经 元 处 于 二 维 平面 网 格 结 点 上 , 构 
成 一 个 二 维 结 点 矩阵 ,共有 M 个 结 点 。 输 入 层 与 竞争 层 的 神经 元 之 间 都 通过 连接 权 值 进行 
连接 ,竞争 层 临 近 的 结 点 之 间 也 存在 着 局 部 的 互联 。SOM 网 络 中 具有 两 种 类 型 的 权 值 , 一 
种 是 神经 元 对 外 部 输入 的 连接 权 值 , 另 一 种 是 神经 元 之 间 的 互 连 权 值 , 它 的 大 小 控制 着 神经 
元 之 间 相 互 作用 的 强 弱 。 在 SOM 网 络 中 ,竞争 层 又 是 输出 层 。SOM 网 络 通过 引入 网 格 形 
成 了 自 组 织 特征 映射 的 输出 空间 ,并 且 在 各 个 神经 元 之 间 建 立 了 拓扑 连接 关系 。 神 经 元 之 
间 的 联系 是 由 它们 在 网 格 上 的 位 置 所 决定 的 ,这 种 联系 模拟 了 人 脑 中 的 神经 元 之 间 的 侧 抑 
制 功 能 ,成 为 网 络 实现 竞争 的 基础 。 


13.3.2 SOM 权 值 调整 域 


SOM 网 采用 的 算法 称 为 Kohonen 算法 , 它 是 在 “ 胜 者 为 王 ”(Winner-Take-All, WTA) 
学 习 规则 基础 上 加 以 改进 的 ,主要 区 别 是 调整 权 向 量 与 侧 抑制 的 方式 不 同 ， 
WTA: 侧 抑制 ?是 “封杀 ? 式 的 。 只 有 获胜 神经 元 可 以 调整 其 权 值 ,其 他 神经 元 都 无 权 

















C Mih: 神经 元 彼此 之 间 发 生 的 抑制 作用 , 即 在 某 个 神经 元 受到 刺激 而 产生 兴奋 时 ,再 刺激 相近 的 神经 元 , 则 后 
者 所 发 生 的 兴奋 对 前 者 产生 的 抑制 作用 。 
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Kohonen 算法 : 获胜 的 神经 元 对 其 邻近 神经 元 的 影响 是 由 近 及 远 , 由 兴奋 逐渐 变 为 抑 
制 。 换 名 话说, 不仅 获胜 神经 元 要 调整 权 值 , 它 周围 的 神经 元 也 要 不 同 程度 调整 权 向 量 。 常 
见 的 调整 方式 有 如 下 几 种 。 

1. 墨西哥 草帽 函数 

获胜 结 点 有 最 大 的 权 值 调整 量 , 临 近 的 结 点 有 稍 小 的 调整 量 , 离 获胜 结 点 距离 越 大 , 权 
值 调整 量 越 小 ,直到 某 一 距离 do 时 , 权 值 调整 量 为 零 ; 当 距 离 再 远 一 些 时 , 权 值 调 整 量 稍 
负 , 更 远 又 回 到 零 。 如 图 13-5(a) 所 示 。 

2. 大 礼帽 函数 

它 是 墨西哥 草帽 函数 的 一 种 简化 ,如 图 13-5(b) 所 示 。 

3. 厨师 帽 函数 

它 是 大 礼帽 函数 的 一 种 简化 ,如 图 13-5(c) 所 示 。 











wir) 





(c) 
图 13-5 权 值 调整 函数 


以 获胜 神经 元 为 中 心 设 定 一 个 邻 域 半 径 尺 , 该 半径 固定 的 范围 称 为 优胜 邻 域 。 在 SOM 
网 学 习 方法 中 ,优胜 邻 域内 的 所 有 神经 元 均 按 其 与 获胜 神经 元 距离 的 远近 不 同 程度 调整 权 
值 。 优 胜 邻 域 开 始 定 的 较 大 ,但 其 大 小 随 着 训练 次 数 的 增加 不 断 收缩 ,最 终 收缩 到 半径 
为 零 。 


13.3.3 SOM 网 络 运行 原理 


SOM 网 络 的 运行 分 训练 和 工作 两 个 阶段 。 在 训练 阶段 ,网 络 随机 输入 训练 集中 的 样 
本 ,对 某 个 特定 的 输入 模式 ,输出 层 会 有 某 个 结 点 产生 最 大 响应 而 获胜 ,而 在 训练 开始 阶段 ， 
输出 层 哪个 位 置 的 结 点 将 对 哪 类 输入 模式 产生 最 大 响应 是 不 确定 的 。 当 输入 模式 的 类 别 改 
变 时 ,二 维 平面 的 获胜 结 点 也 会 改变 。 获 胜 结 点 周围 的 结 点 因 侧 向 相互 兴奋 作用 也 产生 较 
大 影响 ,于 是 获胜 结 点 及 其 优胜 邻 域 内 的 所 有 结 点 所 连接 的 权 向 量 均 向 输入 方向 作 不 同 程 
度 的 调整 ,调整 力度 依 邻 域内 各 结 点 距离 获胜 结 点 的 远近 而 逐渐 减 小 。 网 络 通过 自 组 织 方 
式 , 用 大 量 训练 样本 调整 网 络 权 值 ,最 后 使 输出 层 各 结 点 成 为 对 特定 模式 类 敏感 的 神经 元 ， 


对 应 的 内 星 权 向 量 成 为 各 输入 模式 的 中 心 向 量 。 并 且 当 两 个 模式 类 的 特征 接近 时 ,代表 这 
两 类 的 结 点 在 位 置 上 也 接近 。 从 而 在 输出 层 形成 能 反映 样本 模式 类 分 布 情 况 的 有 序 特 
征 图 。 
13.3.4 SOM 网 络 学 习 方法 

对 应 于 上 述 运行 原理 ,SOM 网 络 采 用 的 学 习 算 法 按 如 下 步骤 进行 。 

CD 初始 化 。 对 输出 层 各 权 向 量 赋 小 随机 数 并 进行 归 一 化 处 理 , 得 到 W; (Gj 二 1,2,…， 
m) ,建立 初始 优胜 邻 域 N; * (0) 和 学 习 率 9 VIE. m 为 输出 层 神经 元 数目 。 

(2) 接受 输入 。 从 训练 集中 随机 取 一 个 输入 模式 并 进行 归 一 化 处 理 , 得 到 X”(p 二 1， 
2,…,n),n 为 输入 层 神经 元 数目 。 

(3) 寻找 获胜 结 点 。 计 算 X? GW, 的 点 积 , 从 中 找到 点 积 最 大 的 获胜 结 点 j x 。 

(4) 定义 优胜 邻 域 Nj. (1)。 以 jx 为 中 心 确 o o o o o o o 
定 上 时 刻 的 权 值 调整 域 ,一 般 初始 邻 域 N;.(0) 较 


大 (大 约 为 总 结 点 的 5096 — 80940 ,训练 过 程 中 ee se A la 
N;. GO Bf VIL ZEE Fe] ic Hii n R 13-6 所 示 。 
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结 点 调整 权 值 。 o|olo o ololfo 
wy (t+1) = wy (t) T aG Nr? — wy (1) ] Sel ors docere oe He. 
i2q2,ej€ NO (13-7) 





其 中 ,ae(t,N) 是 训练 时 间 上 和 和 邻 域内 第 7 个 神经 元 
与 获胜 神经 元 六 之 间 的 拓扑 距离 N 的 函数 ,该 函 
数 一 般 有 以 下 规律 。 
tÅ >a Na ; Mat, N)—aC(Oe P.aCO BEER c 9 5 a TF UE eR c OB K 
函数 。 
(6) 结束 判定 。 当 学 习 率 a) Kami tt. UAR, 不 满足 结束 条 件 时 , 转 到 步骤 (2) 


图 13-6 BIR N;. (0 的 收缩 


13.4 SOM 网 络 应 用 举例 


13.4.1 问题 描述 


用 32 个 字符 作为 SOM 输入 样本 ,包括 26 个 英文 字母 和 6 个 数字 (1 一 6) 。 每 个 字符 对 
应 一 个 5 维 向 量 ,各 字符 与 向 量 X 的 关系 如 表 13-1 所 示 。 由 表 13-1 可 以 看 出 ,代表 ALB. 
C、DE 的 各 向 量 中 有 4 个 分 量 相同 , 即 xf ,xf ,xf ,x?,xf 二 0(i 二 1,2,3,4), 因 此 ,A、B、C、 
D.E 应 归 为 一 类 ; RÆ FGH IJ 的 向 量 中 有 3 个 分 量 相同 , 同 理 也 应 归 为 一 类 ; 依 此 类 
推 。 这 样 就 可 以 由 表 13-1 中 输入 向 量 的 相似 关系 ,将 对 应 的 字符 标 在 图 13-7 所 示 的 树 形 
结构 图 中 。 用 SOM 网 络 对 其 他 进行 聚 类 分 析 。 
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表 13-1 字符 与 其 对 应 向 量 
A|B|C|D|E|F|G|H|I|J|K|L|M|NJ|O|P|Q|R,|S|T]|U N= 
X4|1|2/3|4/5|3|3]|3|3,3|3|3/|3]|3|3|3|3//3|3 3] 3 3- 
Ml} O/0/0/0/0/1)2);3;/4/5/3/3)/3)/3)3]3)3]3)]3 3]|3 |3-- 
X:0|0/0|0/,0|0|0|]0|0,0|1|]2/|3|4|5|3|3/,3|3 3]|3 mm 
X0|0[|0/|0|0/0|0[|0/|0|0/0|0|0]0[|0|1/]2|3]|4|5]|83 3 
X,010]0/0/]0|0/,0]|0/0|0|0/0]|]0/0|]0/0/0|0/0]|0|1 2-— 







































































图 13-7 树 形 结构 图 


13.4.2 网 络 设计 及 学 习 结 果 


l. 表格 分 析 

A、B.C.D.\E 的 各 向 量 有 4 个 分 量 相同 一 一 同类 。 

FG HIJ 的 各 向 量 有 3 个 分 量 相 同一 一 同类 。 

2. SOM 网 络 设计 

CD 输入 层 结 点 数 n: 样本 维 数 一 5。 

© 输出 层 结 点 数 : 取 70 个 神经 元 ,二 维 平面 阵 。 

@ 权 值 初始 化 : 随机 小 数 。 

图 N;. OMRE: 7r(1)= 二 10(1 一 t/t,)。 

© FAR alt) 9 C$ (0— t/tm)0. 5 t/t) o 

3. 训练 

将 训练 集中 代表 各 字符 的 输入 向 量 X? 随机 选取 后 训练 ,经 10 000 步 训练 ,各 权 向 量 趋 
于 稳定 。 对 网 络 输出 进行 核准 , 即 根据 输出 神经 元 阵列 与 训练 集中 已 知 模式 向 量 对 应 关系 
的 标号 来 核准 。 结 果 是 : 70 个 神经 元 中 .有 32 个 神经 元 有 标号 ,另外 38 个 为 未 用 神经 元 。 


13.4.3 输出 结果 分 析 
图 13-8 给 出 了 自 组 织 学 习 后 的 输出 结果 。SOM 网 络 完成 学 习 训练 后 ,对 于 每 一 个 输 














入 字符 ,输出 平面 中 都 有 一 个 特定 的 神经 元 对 其 敏感 ,这 种 输入 一 一 输出 的 映射 关系 在 输出 
特征 平面 中 表现 得 非常 清楚 。SOM 网 络 经 自 组 织 学 习 后 在 输出 层 形成 了 有 规则 的 拓扑 结 
构 , 在 神经 元 阵列 中 ,各 字符 之 间 的 相互 位 置 关 系 与 它们 在 树 状 结构 中 的 相互 位 置 关 系 类 
似 ,两 者 结构 特征 上 的 一 致 性 是 非常 明显 的 。 














图 13-8 自 组 织 学 习 的 输出 结果 


13.5 SOM 网络 的 特点 及 应 用 


13.5.1 SOM 网 络 的 特点 


SOM 网 络 的 优点 : 它 将 相 邻 关系 强加 在 簇 质心 上 ,所 以 , 互 为 邻居 的 簇 之 间 比 非 邻 居 
的 簇 之 间 更 相关 。 这 种 联系 有 利于 聚 类 结果 的 解释 和 可 视 化 。 

SOM 网 络 的 缺点 如 下 。 

(1) 用 户 必 选 选择 参数 、 邻 域 函数 网 格 类 型 和 质心 个 数 。 

(2) 一 个 SOM 簇 通常 并 不 对 应 单个 自然 簇 ,可 能 有 自然 簇 的 合并 和 分 裂 。 例 如 , 像 其 
他 基于 原型 的 聚 类 技术 一 样 , 当 自 然 簇 的 大 小 、 形 状 和 密度 不 同时 ,SOM 倾向 于 分 裂 或 合并 
它们 。 

(3) SOM 缺乏 具体 的 目标 函数 。SOM 受 限 于 质心 之 间 的 地 形 约束 (为 了 更 好 的 近似 
数据 的 质心 的 集合 ); 但 是 SOM 的 成 功 不 能 用 一 个 函数 来 表达 。 这 可 能 使 得 比较 不 同 的 
SOM 聚 类 的 结果 是 困难 的 。 

(4) SOM 不 保证 收敛 ,尽管 实际 中 它 通 常 收敛 。 


13.5.2 SOM 网 络 的 应 用 


1. 汽 轮 发 电机 多 故障 诊断 的 SOM 神经 网 络 方法 

汽 轮 发 电机 组 的 振动 故障 具有 多 样 性 的 特点 ,经 常 出 现 多 种 故障 同时 发 生 的 情况 。 传 
统 的 BP 神经 网 络 方法 可 对 单一 故障 有 效 诊断 , 若 要 对 多 故障 进行 诊断 , 则 需 对 各 种 多 故障 
样本 进行 学 习 , 使 输入 空间 在 训练 过 程 中 被 样本 空间 完全 覆盖 ,将 大 大 地 增加 样本 空间 及 学 
习 训 练 负担 ,同时 网 络 归纳 、 联 想 能 力 随 之 大 幅度 下 降 , 诊 断 难 以 实施 。 因 此 ,将 自 组 织 特征 
映射 (SOM) 神经 网 络 应 用 于 汽 轮 发 电机 组 的 振动 多 故障 诊断 ,用 单一 故障 样本 对 网 络 进行 
训练 ,根据 输出 神经 元 在 输出 层 的 位 置 对 多 故障 进行 判断 。 

2. 基于 SOM 神经 网 络 的 柴油 机 故障 诊断 

利用 神经 网 络 的 非 线 性 映射 及 其 高 度 的 自 组 织 和 自学 习 能 力 , 将 SOM 网 络 应 用 于 柴 
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油 机 的 故障 诊断 。 利 用 传感器 获得 柴油 机 喷射 系统 的 燃油 压力 波形 ,对 波形 进行 时 域 分 析 
和 特征 提取 。 根 据 所 取得 故障 信息 及 其 对 应 的 故障 类 型 来 构造 网 络 结构 ,用 单一 故障 样本 
对 网 络 进行 训练 ,根据 输出 神经 元 在 输出 层 的 位 置 对 故障 进行 判断 。 


13.6 SOM 神经 网 络 源 程序 结果 分 析 


SOM 神经 网 络 源 程 序 包 括 Kohonen_Test_Data. java, Kohenen _Topology. java. 
Kohenen Training Data. java, Kohenen-units. java, MyInput. java, Neural- Window. java, 
Neuralk. java, Sample. data. java 和 Storage. java 等 程序 ,相关 程序 和 实验 数据 可 从 github 
中 下 载 ,网 址 为 https://github. com/guanyaol/som. git. 

1. Kohonen_Test_Data. java 











package som; 


public class Kohonen_Test_Data extends Kohonen_Training_Data { 
public String resultsname; 
void request_Kohonen_data(int net_no) { 
System. out 
. println("Please enter the file name containing the test data for Kohonen 
network no. "+ net no); 
filename = MyInput. readString(); 
Systen. out. println(); 
specify signal sample size(); 
normalize data in array(); 


) 
2. Kohenen Topology. java 


package som; 
import java. io. * ; 


public class Kohonen Topology ( 
int kluster champ; 
int dimensions of signal; 
int maximum number of clusters; 
double max learning rate; 
double min learning rate; 
double interim learning rate; 
Kohonen units[]node in cluster layer; 
Kohonen Topology() ( 
interim learning rate = 1.0; 


} 


void establish Kohonen topology(int netuse) { 
String netcreate; 
int looploc = 0; 
if (netuse == 1) { 


do { 
System. out. println(); 
Systen. out. println("Do you wish to"); 
System.out.println("C. Create your own Kohonen Map "); 
System.out.println("U. Upload an existing Kohonen Map "); 
System. out. println("Your choice?: ^"); 
netcreate - MyInput. readString(); 
System. out. println(); 
netcreate = netcreate. toUpperCase(); 
if ((netcreate. equalsIgnoreCase("C") ) 
|| (netcreate. equalsIgnoreCase("U"))) ( 
looploc = 1; 
} 
} while (looploc <= 0); 
} else { 
netcreate = "C"; 
} 
if ((netcreate. equalsIgnoreCase("U")) && (netuse == 1)) { 
upload network(); 
} else ( 
if (netuse == 1) { 
System. out. println("Please enter the dimensions of the network's input signal 
vector: "); 
dimensions of signal = MyInput. readInt(); 
Systen. out. println(); 
} 
System. out 
.println("please enter the maximum number of clusters to be formed: "); 
maximum number of clusters = MyInput. readInt(); 
Systen. out. println(); 
//establish clustering layer of Kohonen network 
node in cluster layer = new Kohonen units[maximum number of clusters]; 
for (int c = 0; c< maximum number of clusters; c++) ( 
node in cluster layer[c] = new Kohonen units(); 
node in cluster layer[c].number of inputs = dimensions of signal; 
node in cluster layer[c].establish input output arrays(); 
node in cluster layer[c].establish input weight vector array(); 
node in cluster layer[c].initialize inputs and weights(); 


void upload network() ( 
String getname; 
FileReader get ptr; 
int netid - 0; 
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int nodes, dim; 
int dolock - 0; 
do ( 
System. out. println(); 
System. out. println("Please enter the name of the file which holds the Kohonen 
Map"); 
getname - MyInput. readString(); 
Systen. out. println(); 
try { 
get_ptr = new FileReader(getname) ; 
BufferedReader br = new BufferedReader(get ptr); 
String string; 
while ((string = br. readLine()) != null) { 
if (string. trim().equalsIgnoreCase("")) { 
continue; 
) 
netid = Integer.parseInt(string); 
break; 
) 
if (netid == 3) { 
dolock = 1; 
br. close( ); 
get ptr.close(); 
} else ( 
System. out. println( "Error *» file contents do not match Kohonen 
specifications"); 
System. out. println("try again"); 
br.close(); 
get ptr.close(); 
j 
} catch (IOException exc) { 
String str = exc. toString(); 
System. out. print1n( str); 
} 
} while (dolock <= 0); 
try { 
get_ptr = new FileReader(getname) ; 
BufferedReader br = new BufferedReader(get ptr); 
String string; 
int row = 0; 


while ((string = br. readLine()) != null) { 
if (string. trim().equalsIgnoreCase("")) { 


continue; 

} 

if (!string. trim().equalsIgnoreCase("")) { 
row++; 

} 


if (row == 2) { 
dimensions of signal = Integer. parseInt( string); 


if (row == 3) { 
maximum number of clusters = Integer. parseInt(string) ; 
break; 


} 
node in cluster layer = new Kohonen units[maximum number of clusters]; 
for (nodes = 0; nodes < maximum number of clusters; nodes++) { 

node in cluster layer[nodes] - new Kohonen units(); 

node in cluster layer[nodes].number of inputs - dimensions of signal; 


node in cluster layer[nodes].establish input output arrays(); 


le in cluster layer[nodes].establish input weight vector array(); 


Hd 


} 
while ((string = br.readLine()) != null) { 
if (! string. trim().equalsIgnoreCase("")) { 
row*t; 
} 
int indexOfSpace = 0; 
int tempIndexOfSpace = 0; 
if (row>= 4) { 
for (nodes = 0; nodes < maximum number of clusters; nodes++) { 
for (dim = 0; dim < dimensions of signal; dim++) { 
if (dim == 0) { 
indexOfSpace = string. indexOf(" "); 
node in cluster layer[nodes]. input weight vector[dim] = Double 
. parseDouble(string.trim(). substring(0, indexOfSpace).trim()); 
tempIndexOfSpace - indexOfSpace; 
) eise ( 
indexOfSpace = string. indexOf(" ", 
indexOfSpace + 1); 
node in cluster layer[nodes]. input weight vector[dim] = Double 
.parseDouble(string.trim(). substring(tempIndexOfSpace, indexOfSpace).trim()); 
tempIndexOfSpace = indexOfSpace; 


} 
br.close(); 
get ptr.close(); 

] catch (IOException exc) ( 
String str 7 exc.toString(); 
System. out. println(str); 


) 
void kluster nodes compete for activation() { 
double minimum distance - 0; 
for (int m = 0; m< maximum number of clusters; m++) { 
node in cluster layer[m].calculate sum square Euclidean distance(); 
if (m -- O)( 
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kluster champ - m; 
minimum distance = node in cluster layer[m]. output value[0]; 
} else ( 
if (node in cluster_layer[m]. output_value[0] < minimum distance) { 
kluster_champ = m; 
minimum distance = node in cluster_layer[m].output_value[0]; 








J 
} 
} 
void update the Kohonen network(int epoch count, int max epochs) { 
int maxepoch; 
if (max epochs == 1) { 
maxepoch = 1; 
} else { 
maxepoch = max_epochs 一 1; 
Jj 
double adjusted learning rate - max learning rate 
— (((max learning rate — min learning rate) / maxepoch) * epoch count); 
interim learning rate - adjusted learning rate * interim learning rate; 
node in cluster layer[kluster champ] 
.update the weights(interim learning rate); 
} 


public void savenet() { 
String savename; 
FileWriter save_ptr; 
StringBuffer s = new StringBuffer(""); 
int node, dim; 
System. out. println(); 
System. out. println("Please enter the name of the file which will hold the Kohonen Map") ; 
savename - MyInput. readString(); 
Systen. out. println(); 
try { 
save_ptr = new FileWriter(savename) ; 
s.append(3).append("\r\n"); //network identifier number 
s. append(dimensions_of_signal).append("\r\n") ; 
s.append(maximum number of clusters) . append("\r\n"); 
for (node = 0; node < maximum number of clusters; node++) { 
for (dim = 0; dim < dimensions of signal; dim++) { 
s.append(node in cluster layer[node]. input weight vector[dim]). append(" ") ; 
} 
s.append("\r\n"); 
} 
save ptr.write(s. toString()); 
save ptr.close(); 
} catch (IOException exc) { 
String str 7 exc.toString(); 
System. out. println(str); 


3. Kohenen_Training_Data, java 


package som; 
import java. io. *; 


public class Kohonen Training Data { 
//Number of dimensions contained in signal 
int signal dimensions; 
double[] max output value; 
double[] min output value; 
/ /Dinensions of test data output 
int nodes in output layer; 
//Pointer to the array containing signals 
sample data[]number of samples; 
// Nunber of signals in training set 
int sample number; 
String filename; 
void acquire net info(int signal) ( 
signal dimensions = signal; 
} 
void normalize data in array() { 
int i, j, imax, imin; 
int trigger; 
double min = 0, max = 0; 
max output value = new double[ signal dimensions]; 
min output value = new double[signal dimensions]; 
for (j = 0; j «signal dimensions; j++) { 


[ 


trigger - 1; 
//identify minimum and maximum values for each dimension 
for (i = 0; i< sample number; i++) { 
if (i == 0) { 
max = number_of_samples[i].data_in 
min = number of samples[i].data in 
) else ( 
if (number of samples[i].data in sample[j] < min) { 
min = number of samples[i].data in sample[j]; 


ample[ j]; 


[S 
_sample[ j]; 


if (number of samples[i].data in sample[j] max) { 
max = number of samples[i].data in sample[j]; 


} 

//normalize the values in each dimension of the signal 

max_output_value[j] = max; 

min_output_value[j] = min; 

imax = (int) (max); 

imin = (int) (min); 

if ((imax == 1) && (imin == 0) && (max<= 1.0) && (min<= 0.0)) { 
trigger = 0; 
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if ((imax == 1) && (imin == 1) && (max <= 1.0) && (min<= 1.0)) { 


trigger = 0; 

} 

if ((imax == 0) && (imin == 0) && (max<= 0.0) && (min<= 0.0)) { 
trigger = 0; 

} 

if (trigger != 0) //do not normalize binary signals 

{ 


for (i = 0; i< sample number; i++) { 
number of samples[i].data in sample[j] = (number of samples[i].data - 
in sample[j] - min)/ (max - min); 


} 


} 
void specify signal sample size() { 
String tchoice; 
int dolock - 1; 
do { 
System. out. println(); 
System. out. println("Please select the number of samples you wish to use"); 
System. out. println("A. All samples in the file"); 
System. out. println("S. Specific number of samples"); 
Systen. out. println("Your Selection: "); 
tchoice - MyInput. readString(); 
Systen. out. println(); 
tchoice = tchoice.toUpperCase(); 
if ((tchoice. equalsIgnoreCase("A")) 
|| (tchoice. equalsIgnoreCase("S"))) ( 
dolock = 0; 
j 
) while (dolock >= 1); 
Systen. out. println(); 
if (tchoice. equalsIgnoreCase("A")) ( 
determine sample number(); 
} else ( 
System. out. println(); 
System. out. println(" please enter the number of testing samples you wish to 
use: "); 
sample number - MyInput. readInt(); 
Systen. out. println(); 
} 
load_data_into_array(); 
2 
void request Kohonen data(int net no) ( 
System. out. println("Enter the file name containing the training data for Kohonen 
network no. "+ net no); 
filename - MyInput. readString(); 
Systen. out. println(); 
specify signal sample size(); 


normalize data in array(); 


} 


void determine sample number() { 


FileReader dfile ptr; 
try { 


dfile ptr = new FileReader(filename) ; 


BufferedReader br 


String string; 


= new BufferedReader (dfile_ ptr); 


sample number = 0; 


while ((string = 


br. readLine()) != null) { 


if (string. equalsIgnoreCase("")) { 


continue; 


} else if (!string. equalsIgnoreCase("")) { 
sample_number++ ; 


上 
br. close(); 
dfile ptr.close() 


} catch (IOException exc) { 


String str = exc. 
System. out. print] 


} 
void load_data_into_array( 


toString(); 
n(str); 


t 


//open the file containing the data 


FileReader file_ptr; 
int i; 
try { 


file_ptr = new FileReader(filename) ; 


BufferedReader br 
String string; 


7 new BufferedReader(file ptr); 


//create dynamic array to hold the specified number of samples 


number of samples 


7 new sample data[sample number]; 


//create a dynamic array to hold the dimensions of each signal 
for (i = 0; i< sample number; i++) { 
number of samples[i] = new sample data(); 
number of samples[i].data in sample = new double[signal dimensions 
* nodes in output layer]; 


i 


int dimensions = 


int row = 0; 
while ((string = 


signal dimensions + nodes in output layer; 


br.readLine()) != null) { 


if (string. trim().equalsIgnoreCase("")) { 
//read in data from file and place in array 


String[] 


S 7 string.split(","); 


System. out.println("s.length- " + s. length); 


if (row < 


sample number) { 


for (intj = 0; j«dimensions; j++) ( 


if (s[j] != null) { 
number of samples[row].data in sample[j] = Double 
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. parseDouble(s[ 1); 
) 
) 
) 
rowtt; 
) 
} 
file ptr.close(); 
System. out. println(); 
} catch (IOException exc) { 
String str = exc. toString(); 
System. out. println(str); 
} 
} 
public void delete_signal_array() { 
number_of_samples = null; 
} 
i 
4. Kohenen-units, java 
package som; 
import java. util. Random; 
public class Kohonen units ( 
// 输 入 矢量 的 维 数 . 
int number of inputs; 
// 输 出 神经 元 结 点 个 数 . 
int number of outputs; 
double[] input weight vector; 
double[] input value; 
double[ ] output value; 
double transfer function width; / /RBFN 
double Gaussian transfer output; / /RBFN 


Kohonen units() ( 
number of outputs = 1; 


void establish input output arrays() { 
input value = new double[number of inputs]; 
output value - new double[number of outputs]; 
} 
void establish_input_weight_vector_array() { 
input weight vector = new double[number of inputs]; 
} 
void initialize inputs and weights() { 
Random random - new Random(); 
for (intk = 0; k< number of inputs; k++) ( 
input weight vector[k] = random. nextDouble(); 
System.out.println("input weight vetor[" * k * "] 
* input weight vector[k]); 


} 
void calculate sum square Euclidean distance() { 
double sumsquare; 
double ssi; 
int ci; 
output value[0] = 0.0; 
for (intk = 0; k« number of inputs; k++) { 


ci = k; 
if (input value[ci] == 0.0) { 
sumsquare = Math. pow(input weight vector[ci], 2.0); 
} else { 
sumsquare = Math. pow(Math. abs( input_weight_vector[ci] 
- input value[ci]), 2.0); 
} 


output_value[0] += sumsquare; 
j 
ssl = output value[0]; 
output value[0] = Math.sqrt(Math.abs(ss1)); 
} 
void update_the_weights(double learning rate) { 
for (int k = 0; k< number of inputs; k++) { 
input_weight_vector[k] = input_weight_vector[k] 


+ (learning rate * (input value[k] - input weight vector[k])); 


} 

//RBEN 

void execute Gaussian transfer function() { 
double transfer ratio = (- 1.0) 


* Math.pow((output value[0] / transfer function width), 2.0); 


Gaussian transfer output - Math.exp(transfer ratio); 


) 
5. MyInput. java 


package som; 
import java. io. * ; 


public class MyInput ( 
public static String readString() ( 
BufferedReader br - new BufferedReader( 
new InputStreamReader(System. in), 1); 
String string = " "; 
try { 
string = br. readLine(); 


} 
catch ( IOException ex) { 
System. out. println( ex) ; 
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return string; 
) 
public static int readInt() { 
return Integer. parseInt(readString()); 
} 
public static double readDouble() { 
return Double. parseDouble( readString()); 


} 


6. Neural-Window, java 
package som; 


public class Neural Window ( 

public String neural network type; 

public int neural network number; 

public void display menu for net selection(int NNnum) ( 
neural network number - NNnum; 
System. out. println(" k«xxxxxxxxxxxxxx"); 
Systen. out. println(); 
System.out.println(" Neural Network " * neural network number * ""); 
Systen. out. println(); 
Systen. out. println(); 
System. out. println("Please select one of the following network types from the Main 


Menu"); 
inti = 0; 
do ( 
Systen. out. println(); 
izitd; 
} while (i <3); 
System. out. println(" "js 
System.out.println(" ««« / Main Menu \\ ««x"); 
Systen. out. println(); 
System.out.println(" F. Feedforward network using backpropagation "); 
System.out.println(" A. Adaptive Resonance Theory network for binary signals "); 
System.out.println(" K.  Kohonen Self - Organizing Map "); 
System.out.println(" R. Radial Basis Function Network "); 
System.out.println(" E. Exit Program"); 
Systen. out. println(); 
System. out. println("Network Type (?) "); 
neural network type = MyInput. readString(); 
neural network type = neural network type. toUpperCase(); 
if (!neural network type. equalsIgnoreCase("E")) ( 
establish network type(); 
} 
} 


private void establish network type() { 
int NNN - neural network number; 
NeuralK KOH; 
/ /Kohonen Self - Organizing Map 


KOH = new NeuralK(); 

Storage Kstore = new Storage(); 

KOH. construct_Kohonen_network() ; 

KOH. network training testing(NNN); 

Kstore.save neural network(KOH. Kohonen Design); 
} 
public static void main(String[] args) { 


int number_of nets; 
Neural Window User net = new Neural Window(); 
System.out.println(" ******* Welcome to Pitt- Networks!! sxxxxxxx* "); 
Systen. out. println("Please enter the number of networks you wish to develop: "); 
number of nets - MyInput. readInt(); 
for (int NWnet = 1; NWnet < number of nets + 1; NWnet++) { 

User net.display menu for net selection(NWnet); 

if (User net.neural network type. equalsIgnoreCase("E")) { 

break; 





} 
7. Neuralk, java 


package som; 
import java. io. * ; 


public class NeuralK { 

private Kohonen Training Data Kohonen Train = new Kohonen Training Data(); 

private Kohonen Test Data[] Kohonen Test; //number of tests is variable 

private int number of Kohonen tests; 

public Kohonen Topology Kohonen Design - new Kohonen Topology(); 

public void construct Kohonen network() ( 
System. out. println(" **** Kohonen Self -Organizing Map ****"); 
Kohonen Design.establish Kohonen topology(1); 

} 

private void initialize Kohonen training storage array(int KN) { 
int KT = KN; 

Kohonen Train.acquire net info(Kohonen Design.dimensions of signal); 
Kohonen Train.request Kohonen data(KT); 





} 
private void establish Kohonen test battery size() { 
System. out. println( "Please enter the number of tests you wish to run on the Kohonen 
Neural Network: "); 
number of Kohonen tests = MyInput. readInt(); 
System. out. println(); 
if (number of Kohonen tests > 0) { 
//create testing array 
Kohonen Test - new Kohonen Test Data[number of Kohonen tests]; 
for (intt = 0; t< number of Kohonen tests; t++) { 
Kohonen Test[t] = new Kohonen Test Data(); 
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Kohonen Test[t] 
.acquire net info(Kohonen Design.dimensions of signal); 
} 


private void train Kohonen network(int KOHN) { 
int dim, ep, k_epochs, pattern, knodes, dolock; 
System. out. println(); 
System.out.println("For Neural Network i" + KOHN); 
System. out. println("please enter the maximum learning rate parameter (0 - 1) : "); 
Kohonen Design.max learning rate = MyInput. readDouble(); 
Systen. out. println(); 
System. out. println("please enter the minimum learning rate parameter (0 - 1): "); 
Kohonen Design.min learning rate - MyInput. readDouble(); 
Systen. out. println(); 
System. out. println(" please enter the number of epochs used to train the Kohonen 
Map: "); 
k epochs 7 MyInput. readInt(); 
Systen. out. println(); 
ep = 0; 
dolock = 0; 
do ( 
for (pattern = 0; pattern < Kohonen Train.sample number; pattern++) { 
for (knodes = 0; knodes < Kohonen Design. maximum number of clusters; 
knodes**) ( 
for (dim = 0; dim < Kohonen Design.dimensions of signal; dim++) ( 
Kohonen Design. node in cluster layer[knodes]. input value 
[dim] = Kohonen Train.number of samples[pattern].data in sample[dim]; 
} 
i 
Kohonen Design.kluster nodes compete for activation(); 
Kohonen Design. update the Kohonen network(ep, k epochs); 





j 
System. out. println("Epoch " + (ep + 1) + " is completed"); 





if ((ep == k epochs - 1) 
|| (Kohonen Design.interim learning rate == 0.0)) { 
dolock - 1; 


} 
ep = ep + 1; 
} while (dolock <= 0); 
Kohonen Train.delete signal array(); 


private void test Kohonen network(int KNET) { 
int tnet, dim, pattern, knodes; 
double realvalue; 
tnet - KNET; 
for (int ktest = 0; ktest < number of Kohonen tests; ktest++) { 
Kohonen Test[ktest]. request Kohonen data(tnet); 
System. out. println("For Kohonen neural network jt" + KNET 


+ "andtest #" + (ktest + 1) + ":"); 
System. out. println("please enter the name of the file to hold the test"); 
Kohonen Test[ktest].resultsname = MyInput. readString(); 
System. out. println(); 
FileWriter Kohonen savefile ptr; 
StringBuffer s - new StringBuffer(""); 
try { 
Kohonen_savefile ptr = new FileWriter( 
Kohonen Test[ktest].resultsname); 
for (pattern = 0; pattern < Kohonen Test[ktest]. sample number; pattern++) { 
for (knodes = 0; knodes < Kohonen Design. maximum number of clusters; 
knodes++) ( 
for (dim = 0; dim < Kohonen Design.dimensions of signal; dim++) { 
Kohonen Design.node in cluster layer[knodes]. input value[dim] = Kohonen Test[ktest]. 
number of samples[pattern].data in sample[dim]; 
) 
) 
Kohonen Design.kluster nodes compete for activation(); 
s.append(pattern * 1).append(" "); 
for (dim = 0; dim < Kohonen Design.dimensions of signal; dim++) ( 
realvalue = (Kohonen Test[ktest]. number of samples[pattern].data - 
in sample[dim] + (Kohonen Test[ktest].max output value[dim] - Kohonen Test[ktest].min - 
output value[dim])) * Kohonen Test[ktest].min output value[dim]; 
s. append(realvalue).append(" "); 
) 
s.append(" ").append(Kohonen Design.kluster champ + 1). append("\r\n") ; 
} 
Kohonen savefile ptr.write(s. toString()); 
Kohonen savefile ptr.close(); 
) catch (IOException exc) ( 
System. out. println(exc.toString()); 
} 
Kohonen Test[ktest].delete signal array(); 
) //end test loop 
j 
public void network training testing(int TT) ( 
int tt = TT; 
int menu_choice; 
System. out. println(); 
Systen.out.println(" ««*«x*********** Operations Menu sso ex x") ; 
System.out.println(" Please select one of the following options:"); 


Systen. out. println(" 1. Train Kohonen network only "); 

Systen. out. println(" 2. Test Kohonen network only "); 

Systen. out. println(" 3. Train and Test Kohonen network"); 

System. out. println(" «cs xc o x s Io OO OO OOo eee eee T); 
Systen. out. println(" Your choice?: "); 


menu choice 7 MyInput. readInt(); 
Systen. out. println(); 
switch (menu choice) { 
case 1: 
initialize Kohonen training storage array(tt); 
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train Kohonen network(tt); 
break; 
case 2: 
establish Kohonen test battery size(); 
if (number of Kohonen tests » 0) ( 
test Kohonen network(tt); 
) 
break; 
case 3: 
initialize Kohonen training storage array(tt); 
train Kohonen network(tt); 
establish Kohonen test battery size(); 
if (number of Kohonen tests » 0) ( 
test Kohonen network(tt); 
} 
break; 
default: 
network training testing(tt); 


} 


8. Sample data. java 
package som; 


public class sample data ( 
double[] data in sample; //pointer to the dimensions of a single signal 
) 


9. Storage. java 
package som; 


public class Storage ( 
public void save neural network(Kohonen Topology Kohonen Design) ( 
String schoice; 
int dolock - 0; 
do ( 
Systen. out. println(); 
System. out. println("Do you wish to save this neural network? (Y/N): "); 
Schoice - MyInput. readString(); 
Schoice 7 schoice.toUpperCase(); 
if ((schoice. equalsIgnoreCase("Y")) 
|| (schoice. equalsIgnoreCase("N"))) { 
dolock = 1; 
} 
} while (dolock <= 0); 
if (schoice. equalsIgnoreCase("Y")) { 
Kohonen Design. savenet(); 


程序 运行 结果 如 图 13-9 所 示 。 





ANM enter the number of networks you wish to develop: 


Neural Network 1 








Please select one of the following network types from the Main Menu 


*** / Main Menu V *** 


F. Feedforward network using backpropagation 
A. Adaptive Resonance Theory network for binary signals 
K. Kohonen Self-Organizing Map 

R. Radial Basis Function Network 

E. Exit Program 


E Type (?) 

*** Kohonen Self-Organizing Map **** 
you wish to 

- Create your own Kohonen Map 


. Upload an existing Kohonen Map 
our choice?: 


Please enter the dimensions of the network's input signal vector: 





lease enter the maximum number of clusters to be formed: 


input_weight_vetor[0]-0.42137421494873595 
jput_weight_vetor[1]=0.6596879667186796 
nput_weight_vetor[2]=0.15175247791067925 
jput_weight_vetor[0]=0.11265679518543092 
iput weight vetor[1]-0.42081244508975424 
nput weight vetor[2]70.18526846821149012 
nput weight vetor[0]*0.11505727000278398 
iput weight vetor[1]-0.49457104049317113 
put weight vetor[2]70.9598551066469106 
put weight vetor[0]=0.1855395638703694 
nput weight vetor[1]70.7145884545247534 
iput weight vetor[2]-0.30840139875104244 
nput weight vetor[0]*0.9863736270089521 
nput weight vetor[1]70.7593386312813042 





图 13-9 SOM 神经 网 络 程序 运行 结果 


13.7 小 结 


Kohonen 1982 年 提出 的 SOM 自 组 织 映射 神经 网 络 是 一 个 巧妙 的 神经 元 网 络 , 它 建立 
在 一 维 、 二 维 或 三 维 的 神经 元 网 络 上 ,用 于 捕获 包含 在 输入 模式 中 感 兴趣 的 特征 ,描述 在 复 
杂 系 统 中 从 完全 混乱 到 最 终 出 现 整体 有 序 的 现象 。 


oS 
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自 组 织 映 射 也 可 以 看 成 向 量 量化 器 ,从 而 提供 一 个 导出 调整 权 值 向 量 的 更 新 规则 的 原 
理性 方法 。 此 方法 明确 地 强调 邻 域 函数 作为 概率 密度 函数 的 作用 。 

本 章 讨论 竞争 算法 的 学 习 过 程 ,在 此 基础 上 进一步 介绍 了 自 组 织 SOM 神经 网 络 的 结 
构 、 工 作 原 理 。 最 后 介绍 了 SOM 神经 网 络 在 汽 轮 发 电机 多 故障 诊断 、 柴 油 机 故障 诊断 中 的 
具体 应 用 。 


思 考 a 


1. 请 介绍 SOM 神经 网 络 的 基本 构造 及 工作 原理 。 
2. 自 组 织 神经 网 络 由 输入 层 和 竞争 层 组 成 , 设 初始 权 向 量 已 归 一 化 为 : 
Wi=[1 0], W.-[0 —1] 
现 有 4 个 输入 模式 , 均 为 单位 向 量 ， 
Xi 一 1A45"， X,=17—135°, X;=1790°, X,—17-—180 
试用 WTA 学 习 算 法 调整 权 值 ,给 出 前 20 次 的 权 值 学 习 结果 。 
3. 给 定 5 个 四 维 输入 模式 如 下 : 
Xi-[1 0 0 0] X= 1 0 0], R= 1 1 9] 
XX, =f0 1 0 0]. X.= fl 2 43 19 
试 设计 一 个 具有 5x5 神经 元 的 平面 SOM 网 络 ,学 习 率 a(t) 在 前 1000 步 训练 中 从 0.5 
线性 下 降 到 0. 04, 然 后 在 训练 到 10 000 步 时 减 小 到 0, 优 胜 邻 域 半 径 初 始 值 设 为 相 邻 的 2 个 
结 点 ,1000 个 训练 步 时 降 为 0, 即 只 含 获 胜 神经 元 。 每 训练 200 步 记 录 一 次 权 值 ,观察 其 在 
训练 过 程 中 的 变化 情况 。 给 出 训练 结束 后 ,5 个 输入 模式 在 输出 平面 上 的 映射 图 。 并 观察 
下 列 输入 向 量 映射 区 间 。 
E,-[L 0 0 1]. Bs 2 0 1]. B= 1 3 0], 
F,-[0 1 0 1], Fs=(0 1 1 1] 
4. 介绍 一 例 自 组 织 SOM 神经 网 络 的 具体 应 用 。 
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14.1 DBSCAN 算法 的 原理 


14.1.1 DBSCAN 算法 原理 解析 


DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是 一 个 基于 高 
密度 连接 区 域 的 密度 聚 类 算法 ,该 算法 将 簇 定义 为 密度 相连 的 点 的 最 大 集 ,将 具有 高 密度 的 
区 域 划 分 为 徐 。 要 想 理解 密度 相连 的 含义 ,需要 理解 与 此 相关 的 一 些 定义 。 下 面 给 出 这 些 
定义 。 

1. 邻 域 。 对 于 给 定 的 对 象 pA p 为 中 心 e 为 半径 的 区 域 称 为 对 象 p 的 e- 邻 域 。 

2. 核心 对 象 。 对 于 给 定 的 正 整 数 MinPts, 如 果 对 象 p 的 e- 领 域内 至 少 包 含 MinPts 个 
对 象 , 则 称 对 象 p 为 核心 对 象 。 

3. 直接 密度 可 达 。 给 定 一 个 对 象 集合 De ROMS p 在 对 象 g 的 e- 邻 域内 ,而 gq 是 一 
个 核心 对 象 , 则 称 对 象 p 从 对 象 g 出 发 是 直接 密度 可 达 的 。 

4. 密度 可 达 。 给 定 一 个 对 象 集合 D, 如 果 存 在 一 个 对 象 序列 pis pests Pas pi 二 g， 
Pu= pot pE DA isn. pia eM p; X T e 8I MinPts 直接 密度 可 达 的 , 则 称 对 象 p 是 从 
对 象 q 关于 e 和 MinPts 密度 可 达 的 。 

5. 密度 相连 。 如 果 对 象 集合 D 中 存在 一 个 对 象 o ,使 得 对 象 如 和 9 都 是 从 对 象 " 关于 
e 和 MinPts 密度 可 达 的 , 则 称 对 象 p 和 g 是 关于 e 和 MinPts 密度 相连 的 。 

需要 指出 的 是 ,直接 密度 可 达 具 有 方向 性 ,因此 密度 可 达 作为 直接 密度 可 达 的 传递 闭 包 
是 非 对 称 的 ,而 密度 相连 是 对 称 的 。 图 14-1 表明 了 DBSCAN 使 用 的 概念 。 图 中 共有 12 
个 点 ,假设 e 的 值 由 直线 表示 。 在 图 14-1(a) 中 可 以 看 到 点 p 的 邻 域内 有 4 个 点 。 由 于 点 
户 的 邻 域内 有 4 个 点 (MinPts 值 ), 所 以 是 一 个 核心 点 。 图 14-1(b) 展 示 了 图 中 的 5 个 
核心 点 。 注 意 到 在 点 p 的 邻 域内 有 4 个 点 ,但 仅 其 中 的 3 个 点 是 核心 点 。 这 4 个 点 是 从 
b 直接 密度 可 达 的 。 点 q 不 是 核心 点 ,因此 它 是 边界 点 。 可 以 将 点 划分 为 三 部 分 : 一 部 
分 是 彼此 接近 的 核心 点 ; 另 一 部 分 是 与 某 一 核心 点 接近 的 边界 点 ; 最 后 一 部 分 是 与 任何 
核心 点 都 不 接近 的 剩余 的 点 。 图 14-1(c) 展 示 了 虽然 点 7 不 是 核心 点 ,但 它 却 是 从 g 密度 
可 达 的 。 

在 聚 类 过 程 中 ,DBSCAN 将 密度 相连 的 最 大 对 象 集 合作 为 簇 ,不 包含 在 任何 簇 中 的 对 
象 被 认为 是 “噪声 *"。 下 面 对 DBSCAN 的 关键 步骤 进行 描述 。 
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图 14-1 DBSCAN 例子 


【算法 14.1]. DBSCAN 算法 。 
输入 : 


包含 nn 个 对 象 的 数据 集合 D={di,d2，…,d，); 
正 整 数 MinPts; 





* 邻 域 半径 e。 

输出 : 簇 集合 C={Ci,C;,*…,C,)。 
AE. 

k=0; // 开 始 没有 簇 


对 每 一 个 数据 对 象 di(i 二 1,2,…,n) ,执行 下 列 操作 : 


如 果 d; 不 在 任何 簇 中 ,那么 
S={d;|d; ÆA d: SEMAN); 
WR S 是 一 个 有 效 的 簇 ,那么 
k=k+1; 

C,—S., 


14.1.2 DBSCAN 算法 应 用 举例 


本 例 是 一 个 基于 DBSCAN 的 营运 车 辆 超速 点 聚 类 。 超 速 多 发 点 段 可 理解 为 一 条 高 速 
路 上 发 生 超速 事件 密度 大 的 地 点 (或 路 段 )。 因 此 ,可 以 引入 DBSCAN 算法 分 析 超 速 点 聚 类 


规律 ,此 


处 的 点 描述 为 超速 事件 发 生 点 , 邻 域 (neighborhood) 为 道路 的 公里 数 。 





基于 DBSCAN 的 营运 车 辆 超速 点 聚 类 分 析 方 法 的 核心 思想 为 : 对 于 构成 超速 多 发 点 
段 的 每 个 超速 报警 ,其 发 生 的 地 点 半径 邻 域 Eps 公里 范围 内 的 其 他 超速 报警 的 个 数 必 须 不 
小 于 给 定 的 闵 值 MinPts, 即 邻 域 的 密度 必须 不 小 于 某 个 阔 值 。 所 以 ,超速 多 发 点 段 为 半径 
Eps 公里 内 发 生 MinPts 以 上 超速 事件 的 地 点 或 者 路 段 。 本 例 中 涉及 的 定义 如 下 。 


(D 


核心 超速 点 。 给 定 Eps. MinPts. Z5 E XE jx. p 的 Eps 邻 域 包含 的 超速 对 象 个 数 


| NepsC p) | Z2 MinPts, MFR p 是 核心 超速 点 。 

(2) 直接 密度 可 达 。 给 定 Eps,MinPts, 点 户 是 从 点 4 出 发 直接 密度 可 达 的 , 当 且 仅 当 
pE Neps(g), | Neps(p) | >MinPts. 

(3) 密度 可 达 。 给 定 一 个 超速 集合 DD, 当 存在 一 个 对 象 链 Pi. oes Pn bibi p 
对 p;€ D. piri Æ p; 关于 Eps 和 MinPts 直接 密度 可 达 的 , 则 称 对 象 p 从 对 象 g KF Eps 和 
MinPts 密度 可 达 ( 非 对 称 )。 

(4) 密度 相连 。 如 果 对 象 集合 D 中 存在 一 个 对 象 o ,使 得 对 象 p 和 9g Mo 关于 Eps 
和 MinPts 密度 可 达 的 ,那么 对 象 p 和 g 关于 Eps 和 MinPts 密度 相连 (对 称 ) 。 

(5) 超速 黑 点 。 基 于 密度 可 达 的 最 大 密度 相连 对 象 的 集合 称 为 超速 黑 点 。 

(6) 噪声 点 。 不 属于 任何 黑 点 的 对 象 被 认为 是 噪声 点 。 

图 14-2 中 所 有 点 均 表 示 超 速 点 ,Eps 用 1 个 相应 的 半径 表示 , 设 MinPts 二 3。 由 此 可 知 : 

CD 由 于 有 标记 的 各 点 M.P.Q 的 Eps 近 邻 均 包含 3 个 以 上 的 点 ,因此 它们 都 是 核心 

(2) M 从 PP 直接 密度 可 达 , 而 Q 从 M 直接 密度 可 达 。 

(3) 基于 上 述 结果 ,Q 从 PP 密度 可 达 , 但 P 从 Q 无 法 密度 可 达 ( 非 对 称 )。 类 似 地 ,S 和 
R JO 密度 可 达 。 

(4)Q@ 和 P 以 及 S 和 R 均 是 密度 相连 的 。 

基于 密度 聚 类 是 组 密度 相连 的 对 象 ,以 实现 最 大 化 的 密度 可 达 。 不 包含 在 任何 聚 类 中 
的 对 象 为 噪声 数据 。 因 此 ,图 中 的 2 个 类 代表 2 个 超速 黑 点 。 

e. 


W; 


图 14-2 DBSCAN 算法 应 用 实例 





DBSCAN 算法 检查 数据 库 中 每 个 点 的 Eps 近邻 。 若 1 个 对 象 已 的 Eps 近邻 包含 多 于 
MinPts 个 超速 点 ,就 要 创建 包含 P 的 新 聚 类 ,然后 算法 根据 这 些 核对 象 ,循环 收集 直接 密 
度 可 达 对 象 ,其 中 可 能 涉及 若干 密度 可 达 聚 类 的 合并 。 当 各 聚 类 无 新 点 (对 象 ) 加 入 时 , 聚 类 
进程 结束 ,最 后 得 到 的 类 就 是 超速 黑 点 。 


14.2 DBSCAN 算法 的 特点 与 应 用 


14.2.1 DBSCAN 算法 的 特点 


DBSCAN 算法 的 目的 在 于 过 滤 低 密度 区 域 ,发 现 稠密 度 样本 点 。 跟 传统 的 基于 层次 的 
聚 类 和 划分 聚 类 的 凸 形 聚 类 艇 不 同 , 该 算法 可 以 发 现任 意 形状 的 聚 类 和 能 ,与 传统 的 算法 相 比 
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它 有 如 下 优点 。 

(1) 与 KMEANS 比较 起 来 ,不 需要 输入 要 划分 的 聚 类 个 数 。 

(2) 聚 类 簇 的 形状 没有 偏 倚 。 

(3) 可 以 在 需要 时 输入 过 滤 噪 声 的 参数 。 

但 是 由 于 它 直 接 对 整个 数据 库 进 行 操作 且 进 行 聚 类 时 使 用 了 一 个 全 局 性 的 表征 密度 的 
参数 ,因此 也 具有 两 个 比较 明显 的 弱点 。 

CD 当 数 据 量 增 大 时 ,要求 较 大 的 内 存 支持 I/O 消耗 也 很 大 。 

(2) 当空 间 聚 类 的 密度 不 均匀 、 聚 类 间距 差 相 差 很 大 时 , 聚 类 质量 较 差 。 


14.2.2 DBSCAN 算法 的 应 用 


1. 基于 DBSCAN 算法 的 电信 客户 分 类 的 应 用 研究 

为 了 在 激烈 的 市 场 竞争 中 取胜 ,电信 企业 意识 到 必须 将 客户 分 类 ,针对 不 同 的 客户 研究 
相应 的 营销 策略 ,DBSCAN 算法 能 够 实现 客户 分 类 ,但 对 初始 参数 Eps 和 MinPts 的 取 值 非 
常 敏 感 ,不 同 的 取 值 将 产生 不 同 的 聚 类 结果 ,通过 对 DBSCAN 算法 进行 改进 ,实现 了 更 加 准 
确 和 全 面 的 客户 分 类 。 

2. 基于 划分 DBSCAN 算法 的 小 区 载 频 配 置 优化 

为 了 充分 利用 无 线 网 络 资源 ,提升 无 线 网 络 质 量 , 充 分 利用 DBSCAN 算法 的 优点 ,提出 
基于 划分 DBSCAN 算法 的 话 务 量 异常 小 区 的 检测 方法 ,并 通过 对 现 网 大 量 话 务 数 据 的 统 
计 分 析 , 找 出 小 区 载 频 配置 数 和 最 佳话 务 量 之 间 的 关系 。 对 话 务 量 异常 .拥塞 率 高 的 小 区 进 
行 载 频 配置 优化 ,并 对 城市 小 区 网 络 优化 有 一 定 的 指导 意义 。 























14.3 DBSCAN 源 程序 结果 分 析 


DBSCAN 源 程序 包括 DBScan. java, Point. java 和 Utility. java 等 文件 ,相关 程序 和 实 
验 数据 可 从 github 中 下 载 ,网 址 为 https://github. com/guanyaol/dbscn. git. 
1. DBScan, java 


package dbscn; 


import java. io. *; 
import java. util. * ; 
public class DBScan ( 
private static List <Point > pointsList = new ArrayList < Point»(); // 存 储 所 有 点 的 集合 
private static List <List < Point >> resultList = new ArrayList < List < Point >>(); 


// 存 储 DBSCAN 算法 返回 的 结果 集 
private static int e=2; Ile 半径 
private static int minp = 3; / [85 FE AA 


/ * 提取 文本 中 的 所 有 点 并 存储 在 pointsList 中 


* @throws IOException 
«/ 


private static void display(){ 
int index=1; 
for(Iterator «List < Point >> it = resultList. iterator(); it. hasNext();){ 
List < Point > 1st = it. next(); 
if(1st. isEmpty()) ( 
cont inue; 
} 
System. out. println(" ----- 第 "+ index + "48 R% ----- * 
for(Iterator «Point» itl = lst. iterator(); itl. hasNext();){ 
Point p= itl. next(); 
System. out. println(p. print()); 
} 
index++ ; 
} 
} 
// 找 出 所 有 可 以 直达 的 聚 类 
private static void applyDbscan() { 
try { 
pointsList = Utility. getPointsList(); 
for(Iterator «Point» it = pointsList. iterator(); it. hasNext();){ 
Point p= it. next(); 
if(!p. isClassed())( 
List < Point > tmpLst = new ArrayList < Point >(); 
if((tmpLst = Utility. isKeyPoint(pointsList, p, e, minp)) != null){ 
// 为 所 有 聚 类 完毕 的 点 做 标示 


Utility. setListClassed(tmpLst) ; 
resultList. add(tmpLst) ; 
} 


} 
} catch (IOException e) { 
//TODO Auto- generated catch block 
e. printStackTrace( ) ; 
} 


// 对 所 有 可 以 直达 的 聚 类 进行 合并 , 即 找 出 间接 可 达 的 点 并 进行 合并 
private static List <List <Point >> getResult(){ 

applyDbscan() ; // 找 到 所 有 直达 的 聚 类 
int length = resultList. size(); 

for(int i= 0;i< length; ++i){ 

for(int j = it+1;j<Jlength;++j){ 

if(Utility. mergeList(resultList. get( i), resultList. get(j))){ 
resultList. get(j).clear(); 

} 

} 


return resultList; 
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大 数据 挫 据 与 应 用 


/* 程 序 主 函数 


* @param args * / 
public static void main(String[] args) { 


getResult(); 

display(); 
/ /Systen. out. println(Utility. getDistance(new Point(0,0), new Point(0,2))); 
n 
} 


2. Point. java 


package dbscn; 
public class Point { 
private int x; 
private int y; 
private boolean isKey; 
private boolean isClassed; 
public boolean isKey() ( 
return isKey; 
} 
public void setKey(boolean isKey) { 
this. isKey = isKey; 
this. isClassed = true; 
} 
Public boolean isClassed() { 
return isClassed; 
i 
public void setClassed(boolean isClassed) { 
this.isClassed - isClassed; 
) 


public int getX() { 
return x; 

} 

public void setX(int x) { 
this.x = x; 

} 

public int getY() { 
return y; 

} 

public void setY(int y) { 
this.y = y; 

} 


public Point(){ 


x=0; 


} 


y=0; 

} 

public Point(int x, int y){ 

this. x= x; 

this. y= y; 

} 

public Point(String str) { 
String[] p=str.split(","); 
this. x= Integer. parseInt(p[0]); 
this. y= Integer. parseInt(p[1]); 
} 

public String print(){ 


return "<" + this.x+","+ this. y+ ">"; 


} 


3. Utility. java 


package dbscn; 
import java. io. BufferedReader; 


import java. io. FileReader; 


import java. io. IOException; 


import java. util. * ; 
public class Utility { 


J x 测试 两 个 点 之 间 的 距离 
* @param p 点 
* @param q 点 
* @return 返回 两 个 点 之 间 的 距离 
x/ 
public static double getDistance(Point p, Point q){ 
int dx = p.getX() - q. getX(); 
int dy= p.getY() - q. getY(); 
double distance = Math. sqrt(dx * dx + dy * dy); 
return distance; 
} 
/* 检查 给 定点 是 不 是 核心 点 
@param Ist 存放 点 的 链表 
* @param p 待 测试 的 点 
* (param ee 半径 
* (param minp 密度 阔 值 
* @return 暂时 存放 访问 过 的 点 
*/ 


* 


public static List < Point > isKeyPoint(List «Point» lst,Point p, int e, int minp)( 


int count = 0; 
List <Point > tmpLst = new ArrayList < Point >(); 


for(Iterator < Point > it = 1st. iterator();it.hasNext() ; )( 


Point q= it. next(); 
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if(getDistance(p,q)<=e){ 
++count; 

if(! tmpLst. contains(q)) { 
tmpLst. add(q) ; 

} 


if(count >= minp) { 
p. setKey(true) ; 
return tmpLst; 


} 


return null; 


public static void setListClassed(List < Point > lst) { 
for(Iterator «Point» it = lst. iterator(); it. hasNext();){ 
Point p= it. next(); 

if(!p. isClassed())( 

p. setClassed(true); 

) 


} 

/* 如果 b 中 含有 a 中 包含 的 元 素 , 则 把 两 个 集合 合 
* @parama 
* @param b 
* @returna 


x/ 


public static boolean mergeList(List < Point > a, List < Point > b) { 
boolean merge = false; 

for(int index = 0; index « b. size( ) ; ++ index) { 

if(a.contains(b. get( index) ) ){ 

merge = true; 

break; 


if (merge) { 
for(int index = 0; index <b. size() ; ++ index) { 
if(!a. contains(b. get( index) ) ) { 
a.add(b. get ( index) ) ; 
} 


return merge; 


/* 返 回 文本 中 的 点 集合 
* @return 返回 文本 中 点 的 集合 
* @throws IOException 
*/ 
public static List < Point > getPointsList() throws IOException{ 


List < Point > 1st = new ArrayList < Point >(); 

String txtPath = "D:\\workspace\\orisun\\src\\Points. txt"; 
BufferedReader br = new BufferedReader(new FileReader(txtPath) ) ; 
String str=""; 


while( (str = br. readLine())!= null && str!- "" && ! str. equals(""))( 

// 问 题 所 在 ,用 str!= "不 能 排除 str 为 空 的 情况 , 要 用 ! str.equals("") 才 可 以 排除 为 空 的 情况 
lst.add(new Point(str) ); 
} 


br. close(); 
return lst; 


} 





程序 运行 结果 如 图 14-3 所 示 。 "n 
算法 运行 结果 如 图 所 示 , 半径 邻 域 。 取 2, 给 定 的 阔 值 v 
minp 为 3, 对 于 数据 集 {(0,0),(0,1),(0,2),(0,3),(0,4)， 0,3» 
(0,55,(12,15, (12,25, (12,32, (12,45, (12,5), (12,6), CO, ed 
6),(0,7),(12,7),(0.8),(0,9),(1,1)} 运 行 上 面 的 程序 , 程 
序 通过 以 下 过 程 发 现 一 个 簇 : 先 从 数据 集中 找到 任意 一 个 对 ned 
象 P, 并 查找 数据 集中 关于 “e 二 2,minp 二 3” 的 从 P 密度 可 达 pr 
的 所 有 对 象 ( 其 中 e 为 聚 类 半径 ,minp 为 最 小 对 象 数 ), 若 了 ne 
的 e 领域 中 所 包含 的 对 象 个 数 不 少 于 minp 个 , 则 P 为 核心 对 12,9 
象 ,根据 算法 ,可 以 找到 一 个 关于 参数 e。 和 minp 的 类 。 如 果 sm 


Xt RP (fj e 领域 所 包含 的 对 象 数 小 于 minp, 则 对 象 P 被 视 为 
一 个 边界 点 ,并 暂时 标注 为 噪声 点 ,DBSCAN 将 继续 处 理 数 ”图 14-3 DBSCAN 算法 源 程序 
据 集中 的 下 一 个 对 象 。 程序 运行 结果 


14.4 小 结 


DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是 一 个 基于 高 
密度 连接 区 域 的 密度 聚 类 算法 ,该 算法 将 簇 定义 为 密度 相连 的 点 的 最 大 集 , 将 具有 高 密度 的 
区 域 划 分 为 徐 。 该 算法 不 需要 划分 聚 类 个 数 , 聚 类 簇 的 形状 也 没有 偏 倚 , 并 且 可 以 在 需要 的 
时 候 输 入 过 滤 噪 声 的 参数 ,但 该 算法 当 数 据 量 增 大 时 ,对 内 存 消耗 也 较 大 , 且 当 空间 聚 类 密 
度 不 均匀 、 聚 类 间距 离 相差 很 大 时 , 聚 类 效果 较 差 。 


B 考 B 








1. 简 述 DBSCAN 算法 的 原理 。 
2. 简 述 DBSCAN 算法 的 优 缺 点 。 
3. 编程 实现 DBSCAN 算法 。 
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第 15 章 社交 网 络 分 析 方 法 及 应 用 





15.1 社交 网 络 简介 


交 网 络 是 一 个 系统 ,具有 如 下 特点 。 
D 系统 中 的 主体 是 用 户 (User) ,用户 可 以 公开 或 半 公 开 个 人 信息 。 
(2) 用 户 能 创建 和 维护 与 其 他 用 户 之 间 的 连接 (或 朋友 ) 关 系 及 个 人 预 分 享 的 内 容 信息 
〈 如 日 志 或 照片 等 ) 。 
(3) 用 户 通过 连接 (或 朋友 ) 关 系 能 浏览 和 评价 朋友 分 享 的 信息 。 


15.2 KK- 核 方法 


15.2.1 KK- 核 方法 原理 


K-Core(K- 核 ) 的 概念 由 Seidman 于 1983 年 在 论文 “Network Structure and Minimum 
Degree” 中 提出 的 , 它 可 用 来 描述 度 分 布 所 不 能 描述 的 网 络 特征 ,揭示 源 于 系统 特殊 结构 的 
结构 性 质 和 层次 性 质 。 

定义 15.1: K- 核 (K-Core)。 对 于 图 G(V,E) 的 子 图 G'(V EO (V' CV) , 且 满足 对 任意 
WideCE. 35 e 的 两 端点 均 在 V 中 , 则 eCE ,车 集 合 V 中 的 任 一 顶点 v 的 度数 不 少 于 K, 
HEG NAG 的 K- 核 , 即 递 归 移 去 图 中 度数 小 于 K 的 结 点 及 与 其 连接 的 边 后 所 得 到 的 子 
图 为 图 的 K- 核 。 

定义 15.2: BR. TEL GOV E) PHVA v 属于 KK- 核 而 不 属于 (K 十 1)- 核 , 则 该 顶 
的 核 数 为 K。 

K- 核 的 一 个 重要 特征 是 它 的 连通 性 , 若 图 的 K- 核 为 K- 联 通 , 那 么 KK- 核 中 的 任意 两 个 顶 
点 之 间 存 在 K 条 不 相交 的 路 径 , 这 意味 着 核 数 越 大 的 顶点 ,其 连通 性 就 越 好 。 

定义 15.3: K- 核 分 解 。 把 图 中 度数 小 于 K 的 顶点 依次 去 除 的 过 程 。 

【 例 15.1】 K-Core 分 解 过 程 如 图 15-1 所 示 , 图 中 (a)、(b)、(c) 分 别 表示 图 (a) 中 的 
1- 核 ,2- 核 和 3- 核 。 
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图 15-1 K-Core 分 解 过 程 示意 图 


15.2.2 基于 阿里 云 数 加 平台 的 K- 核 方法 实例 


一 个 图 的 K-Core 是 指 反复 去 除 度 小 于 或 等 于 K 的 结 点 后 ,所 剩余 的 子 图 。 若 一 个 结 
点 存在 于 K-Core, 而 在 (K 十 1)-Core 中 被 移 去 ,那么 此 结 点 的 核 数 (coreness) 为 K。 因 此 所 
有 度 为 1 的 结 点 的 核 数 必然 为 0, 结 点 核 数 的 最 大 值 被 称 为 图 的 核 数 。 由 此 可 以 看 出 ,K- 
core 方法 得 到 的 是 原 图 中 核 数 大 于 K 的 结 点 所 构成 的 子 图 ,在 分 析 社 交 关 系 的 人 物 图 时 ， 
若 想 删除 主要 关系 密切 人 物 之 外 的 人 时 , 便 可 用 此 方法 。 如 图 15-2 所 示 ,假设 其 为 人 物 图 ， 
明显 结 点 1、.2.3、4 的 关系 就 比 结 点 5、6 密切 ,如 果 想 删除 结 点 5.6, 便 可 对 其 使 用 K-core 
方法 。 

数据 信息 如 图 15-3 所 示 。 阿 里 云 操作 流程 图 如 图 15-4 所 示 。 





ton ie HRS 
1 2 
1 3 
1 4 
2 3 
2 4 
3 5 | 
3 6 | 
5 =a 6 3 k-Core-1 ©) 
图 15-2 数据 图 图 15-3 数据 信息 图 15-4 K-Core 方法 流程 图 


如 图 15-5 Bros . K-Core 方法 的 字段 信息 选择 所 建 的 表 的 两 列 即 可 ,参数 设置 选择 的 是 
K 的 值 ,这 里 选择 KK 二 2, 因 为 根据 K-Core 的 定义 ,在 图 15-2 中 , 结 点 1、2、4 的 度 是 3, 结 点 
3 的 度 为 5, 结 点 5、6 的 度 为 2, 当 KK=2 时 ,被 去 除 的 会 是 结 点 5、6。 

运行 后 得 到 的 结果 如 图 15-6 所 示 。 
图 15-6 的 结果 与 分 析 的 一 致 。 
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图 15-5 K-Core 方 法 设置 界面 图 15-6 实验 结果 


15.3 单 源 最 短路 径 方法 


15.3.1 单 源 最 短路 径 方 法 原理 

定义 15.4: 给 定 一 个 带 权 有 向 图 ,其 中 V 为 顶点 的 集合 ,E 为 边 的 集合 , 且 每 条 边 的 权 
是 一 个 实数 。 另 外 ,还 给 定 V 中 的 一 个 顶点 , 称 为 源 , 则 称 计算 从 源 到 其 他 所 有 各 项 点 的 最 
短路 径 长 度 ( 这 里 的 长 度 就 是 指 路 上 各 边 权 之 和 ) 的 问题 为 单 源 最 短路 径 问题 。 

SET BUR HR G— (V E) ME V= (vi vo t ev) , 源 为 v,dj 表 示 顶 点 v; 到 顶点 vj 的 
直接 距离 ( 当 没有 从 顶点 v 到 顶点 v; 的 有 向 边 时 , 设 该 距离 为 无 穷 大 ) ,dist(i) 表 示 源 v 到 
顶点 vi 的 单 源 最 短路 径 。 目 前 求解 单 源 最 短路 径 的 算法 有 Dijkstra 算法 、Bellman-Ford 算 
法 ,SPFA 算法 ,下 面 介绍 Dijkstra 算法 。 

Dijkstra 算法 ; 该 算法 要 求 每 条 边 上 的 权 值 为 正 数 (因为 当权 值 为 负 时 ,可 能 在 图 中 会 
存在 负 权 回路 ,最 短路 径 只 要 无 限 次 地 走 这 个 负 权 回路 , 便 可 以 无 限制 地 减少 它 的 最 短路 径 
权 值 ,这 就 变相 地 说 明 最 短路 径 不 存在 )。Dijkstra 算法 如 下 。 

CD 4 S 表示 已 确定 好 关于 源 v 的 单 源 最 短路 径 的 顶点 的 集合 ,T 表示 未 确定 好 关于 
W v 的 单 源 最 短路 径 的 顶点 的 集合 ,distER" 其 第 i 个 分 量 为 dist(i) 。 初 始 化 S— (v). T= 
V— {v}, 4 v;—v if dist() =0; 否则 ,dist(i) 为 无 穷 大 。 

(2) RV v Zt S 中 的 某 些 点 到 T 中 各 个 顶点 的 最 小 距离 的 集合 dv,T) 一 {dild; 为 
Who 经 过 S 中 的 某 些 点 到 项 点 上 的 最 短 距离 ,iiE€ T) , 找 出 该 集合 中 最 小 值 d= min d 对 
应 的 顶点 wET, 将 顶点 从 工 中 删 去 并 加 入 到 SS 中 , 令 dist —d. 

(3) 重复 步骤 (2) .直至 S=V, 且 了 T 为 空 集 。 此 时 dist REM v 到 其 他 所 有 各 顶点 的 最 
短路 径 长 度 的 集合 。 

【 例 15.2) 对 于 如 图 15-7 所 示 的 带 权 有 向 图 ,通过 Dijkstra 算法 求 以 为 源 的 单 源 最 短 
路 径 。 























社交 网 络 分 析 方 法 及 应 用 


KH HH 7 





图 15-7 带 权 有 向 图 


解 : 该 图 的 信息 可 用 表 15-1 表示 。 
表 15-1 带 权 有 向 图 信息 表 
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由 Dijkstra 算法 可 知 : 源 的 最 短路 径 求解 过 程 如 表 15-2 所 示 。 
4152 最短 路径 求解 过 程 表 
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其 中 ,wi 表示 本 次 迭代 应 从 工 中 去 掉 的 点 (或 应 加 入 到 S 中 的 点 ),d 表示 当前 源 到 六 的 最 
短 距离 。 则 w 为 源 的 单 源 最 短路 径 为 :w 到 各 顶点 (除了 vw ) 的 最 短 距 离 分 别 为 10、.50、30、60。 


15.3.2 基于 阿里 云 数 加 平台 的 单 源 最 短路 径 方法 实例 

阿里 云 机 器 学 习 平台 对 于 单 源 最 短路 径 的 说 明 为 : 单 源 最 短路 径 参 考 Dijkstra 算法 ， 
该 算法 中 当 给 定 起 点 , 则 输出 该 点 和 其 他 所 有 结 点 的 最 短路 径 。 即 如 图 15-8 所 示 , 所 用 的 
图 应 是 有 向 图 ,并 给 出 每 条 边 的 权重 ,假如 选择 结 点 a, 便 可 计算 出 该 结 点 到 其 他 所 有 结 点 
的 最 短 距离 。 





图 15-8 带 权 有 向 图 


图 15-8 的 数据 信息 如 图 15-9 所 示 。 阿 里 云 操作 流程 图 如 图 15-10 所 示 。 
Nowinida weighta 
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图 15-9 数据 信息 图 15-10 单 源 最 短路 径 方法 流程 图 


其 字段 设置 与 参数 设置 如 图 15-11 所 示 , 其 中 , 源 点 列 与 目标 项 点 列 分 别 选 择 有 向 图 的 
起 始点 列 与 端点 列 , 权 值 列 依 表 中 的 权 值 列 选择 即 可 ,起 始点 ID 随机 选择 有 向 图 中 的 某 一 
端点 ,这 里 选择 的 是 端点 a。 
实验 结果 如 图 15-12 所 示 , 可 清晰 地 在 distance 查询 顶点 a 到 其 他 顶点 的 最 短 距离 。 
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图 15-11 单 源 最 短路 径 方 法 设置 图 图 15-12 实验 结果 
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15.4 PageRank 算法 


PageRank, 即 网 页 排名 , 又 称 网 页 级 别 、Google 左 侧 排 名 或 佩 奇 排名 。 该 方法 是 
Google 创始 人 拉 里 。 佩 奇 和 谢 尔 盖 。 布 林 于 1997 年 构建 早期 的 搜索 系统 原型 时 提出 的 链 
接 分 析 算 法 。 自 从 Google 在 商业 上 获得 空前 的 成 功 后 ,该 算法 也 成 为 其 他 搜索 引擎 和 学 术 
界 十 分 关注 的 计算 模型 。 目 前 很 多 重要 的 链接 分 析 算 法 都 是 在 PageRank 算法 基础 上 衍生 
出 来 的 。 

PageRank 是 Google 用 来 标识 网 页 的 等 级 /重要 性 的 一 种 方法 ,是 Google 用 来 衡量 一 
个 网 站 的 好 坏 的 唯一 标准 。 在 揉 合 了 诸如 Title 标识 和 Keywords 标识 等 所 有 其 他 因素 之 
后 ,Google 通过 PageRank 调整 结果 ,使 那些 更 具 “ 等 级 /重要 性 ”的 网 页 在 搜索 结果 中 令 网 
站 排名 获得 提升 ,从 而 提高 搜索 结果 的 相关 性 和 质量 。 其 级 别 从 0 到 10 级 ,10 级 为 满分 。 
PR 值 (通过 PageRank 方法 计算 得 来 用 来 衡量 网 站 好 坏 的 数 ) 越 高 说 明 该 网 页 越 受 欢 迎 ( 越 
重要 )。 例 如 ,一 个 PR 值 为 1 的 网 站 表明 这 个 网 站 不 太 具 有 流行 度 , 而 PR 值 为 7 到 10 则 
表明 这 个 网 站 非常 受 欢迎 (或 者 说 极其 重要 )。 一 般 PR 值 达到 4 就 算是 一 个 不 错 的 网 站 
T. Google 把 自己 的 网 站 的 PR 值 定 到 10, 这 说 明 Google 这 个 网 站 是 非常 受 欢迎 的 ,也 可 
以 说 这 个 网 站 非常 重要 。 


15.4.1 PageRank 算法 原理 


为 了 便于 叙述 ,借助 于 图 论 中 的 方法 去 说 明 这 一 算法 。 对 于 带 权 值 的 有 向 图 G=(V， 
E) PURSE VS {v eve enu) ,es EE 表示 从 顶点 vi 到 顶点 v; 的 有 向 边 。 假 设 如 下 : 

(1) 顶点 vi 表示 单个 网 页 A;。 

(2) vi 的 入 度 ID(vi) 表 示 链 接 到 网 页 A;( 这 里 的 链接 是 指 上 网 者 在 浏览 其 他 网 页 后 打 
开 网 页 A;) 的 其 他 网 页 的 总 数目 ,vi 的 出 度 OD(wvi) 表 示 从 网 页 A; 链接 到 他 网 页 的 总 数目 。 


(3) ih ey ERSUN Wee Sppe ERMAT A, 链接 到 网 页 A, 的 概率 。 


(4) PR(A;) 表 示 网 页 A; 的 PageRank 值 (用 来 衡量 网 页 A; 相对 于 其 他 网 页 的 重要 
程度 ) 。 

(5) 对 于 某 一 上 网 者 来 说 ,其 点 开 网 页 A; 的 概率 为 P;。 

1. PageRank 算法 原理 

PageRank 算法 主要 利用 如 下 假设 : 

COD 数量 假设 。 该 假设 认为 : v 的 入 度 ID(uw) 越 大 , 则 网 页 A; REH, 

(2) 质量 假设 。 该 假设 认为 : 链接 到 网 页 A; 的 网 页 越 重 要 (质量 高 ), 则 该 网 页 传递 给 
A; 的 权重 越 多 ,从 而 使 网 页 A 变 得 更 重要 。 

基于 以 上 两 个 假设 ,可 认为 上 网 者 的 行为 是 一 个 马尔 科 夫 过 程 。PageRank 算法 刚 开 
始 赋予 每 个 网 页 相同 的 重要 性 得 分 .通过 迭代 递归 计算 来 更 新 每 个 网 页 PageRank 得 分 , 直 
到 得 分 稳定 为 止 。PageRank 计算 得 出 的 结果 是 网 页 的 重要 性 评价 .这 和 用 户 输入 的 查询 
是 没有 任何 关系 的 , 即 算法 是 主题 无 关 的 。 假 设 有 一 个 搜索 引擎 ,其 相似 度 计算 函数 不 考虑 








内 容 相似 因素 ,完全 采用 PageRank 来 进行 排序 ,那么 这 个 搜索 引擎 对 于 任意 不 同 的 查询 请 
求 , 返 回 的 结果 都 是 相同 的 , 即 返 回 PageRank 值 最 高 的 网 页 。 

2. PageRank 算法 步骤 

CD 在 初始 阶段 : 每 个 网 页 设置 相同 的 PageRank 值 ,通过 若干 轮 的 计算 ,会 得 到 每 个 
网 页 所 获得 的 最 终 PageRank 值 。 随 着 每 一 轮 的 计算 进行 ,网 页 当前 的 PageRank 值 会 不 断 
地 得 到 更 新 。 

(2) 在 一 轮 中 更 新 页 面 PageRank 得 分 的 计算 方法 : 在 一 轮 更 新 页 面 PageRank 得 分 的 
计算 中 ,每 个 页 面 将 其 当前 的 PageRank 值 平均 分 配 到 本 页 面包 含 的 出 链 上 ,这 样 每 个 链 
接 即 获得 了 相应 的 权 值 。 而 每 个 页 面 将 所 有 指向 本 页 面 的 入 链 所 传 入 的 权 值 求 和 , 即 可 
得 到 新 的 PageRank 得 分 。 当 每 个 页 面 都 获得 了 更 新 后 的 PageRank 值 ,就 完成 了 一 轮 
PageRank 计算 。 

对 于 网 页 A, ,其 PageRank 值 为 : 





PR(Ai) = SWGj)PRO,) 
可 


当 OD(u;) —0 时 ,也 就 是 A; 不 链接 到 任何 其 他 网 页 ,此 时 为 了 使 得 很 多 网 页 能 被 访问 
到 ,需要 对 PageRank 公式 进行 修正 , 即 在 简单 公式 的 基础 上 增加 了 阻尼 系数 (damping 
factor)g( 一 般 取 为 0. 85)。 

q 的 意义 是 为 ,在 任意 时 刻 ,用 户 到 达 某 页 面 后 并 继续 向 后 浏览 的 概率 ; 而 1 一 g 就 是 用 
户 停 止 点 击 , 随 机 跳 到 新 网 页 的 概率 的 算法 被 用 到 了 所 有 页 面 上 。 该 系数 保证 页 面 的 
PageRank 值 不 会 是 0, 相 当 于 给 了 每 个 页 面 一 个 最 小 值 。 

对 于 网 页 A;, 其 修正 后 的 PageRank 值 为 

PR(A,) = al PwdPRA,)) E 


j= 


4 
PR = (PRCAD PRA) 7 PR,))7 
MER” "为 状态 转移 矩阵 ,其 中 My =W Cez) 
= = T 
b= ——— ) 
n 


n n 
则 有 
PR=b+qXMXPR 
3. (FA Fe ER AR PR 
令 : EE R"”" 为 元 素 均 为 1 的 矩阵 ， 
A=qXM+ lap 


PRo ER" 为 分 量 均 为 1 的 向 量 ,表示 每 个 网 页 的 初始 PageRank 值 均 为 1, 则 ， 


PR = limA'X 
15.4.2 PageRank 算法 的 特点 及 应 用 


PageRank 算法 的 优 缺 点 如 下 。 
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1. 优点 

PageRank 算法 是 一 个 与 查询 无 关 的 静态 算法 ,所 有 网 页 的 PageRank 值 通过 离线 计算 
获得 ; 有 效 减 少 在 线 查 询 时 的 计算 量 , 极 大 地 降低 了 查询 响应 时 间 。 

2. 缺点 

(1) 人 们 的 查询 具有 主题 特征 ,而 PageRank 忽略 了 主题 相关 性 ,导致 结果 的 相关 性 和 
主题 性 降低 。 

(2) 旧 的 页 面 等 级 会 比 新 页 面 高 。 因 为 即使 是 非常 好 的 新 页 面 也 不 会 有 很 多 上 游 链 
接 , 除 非 它 是 某 个 站 点 的 子 站 点 。 

(115.3) 考虑 在 只 有 三 个 网 页 的 情况 下 ,求解 每 个 网 页 的 PageRank 值 。 对 应 的 带 
权 值 的 有 向 图 G 二 (V,E), 其 中 顶点 集 V=={vi v2.03} LE (eio ens em 6) 。 

















解 : 依 题 意 可 知 : 
0 0.5 0.5 
n—3,WT— 0 0 1 
1o -0 
I q—0. 85. Jl: 
0.05 0.05 0.9 
A= |0.475 0.05 0.05|; X= (3,1, DT 
0.475 0.9 0.05 
0.05 0.05 0.9)" 1.2 
PR = limA"X = lim|0.475 0.05 0.05 |- 0.6 
d ""lo475 09 0.05) hl) [12 

















15.4.3 基于 阿里 云 数 加 平台 的 PageRank 算法 实例 


阿里 云 机 器 学 习 平台 对 于 PageRank 算法 的 说 明 为 : PageRank 起 于 网 页 的 搜索 排序 ， 
google 利用 网 页 的 链接 结构 计算 每 个 网 页 的 等 级 排名 ,其 基本 思路 是 : 如 果 一 个 网 页 被 其 
他 多 个 网 页 指向 ,这 说 明 该 网 页 比较 重要 或 者 质量 较 高 。 除 考虑 网 页 的 链接 数量 ,还 考虑 网 
页 本 身 的 权重 级 别 , 以 及 该 网 页 有 多 少 条 出 链 到 其 他 网 页 。 对 于 用 户 构 成 的 人 际 网 络 ,除了 
用 户 本 身 的 影响 力 之 外 , 边 的 权重 也 是 重要 因素 之 一 。 例 如 ,新 浪 微 博 的 某 个 用 户 ,会 更 容 
易 影响 粉丝 中 关系 比较 亲密 的 家 人 、 同 学、 同事 等 ,而 对 陌生 的 弱 关系 粉丝 影响 较 小 。 在 人 
际 网 络 中 , 边 的 权重 等 价 为 用 户 -用 户 的 关系 强 弱 指数 。 带 连接 权重 的 PageRank 公式 为 





W(A) = ad) d» (Xie * cai) 


其 中 ,tw(i) 为 结 点 i 的 权重 ,c(Ai) 为 链接 权重 ,d 为 阻尼 
系数 ,算法 迭代 稳定 后 的 结 点 权重 W 即 为 每 个 用 户 的 影响 力 
指数 。 如 图 15-13 所 示 , 假设 端 点 代表 某 个 网 页 ,有 向 图 的 指 
向 便 代表 可 以 由 某 网 页 链接 到 另 一 网 页 ,例如 a 指向 b 代表 网 
页 b 能 链接 到 网 页 a 权重 值 代表 网 页 的 权重 级 别 , 而 
PageRank 算法 便 能 对 每 个 网 页 进行 等 级 排名 ,而 由 此 ,可 以 
引申 到 人 物 关系 图 中 来 使 用 ,认为 使 用 PageRank 算法 可 以 得 图 15-13 有 向 图 



































到 每 个 人 物 的 重要 性 或 影响 力 排名 。 
数据 图 如 图 15-14 所 示 。 
操作 流程 图 如 图 15-15 所 示 。 


fow out ida — flow in ida 
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图 15-14 数据 图 
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15-15 ”操作 流程 图 


其 字段 设置 与 单 源 最 短路 径 算法 一 致 ,参数 设置 中 最 大 迭 代 次 数 与 阻尼 系数 选择 默认 


参数 即 可 ,如 图 15-16 所 示 。 


其 结果 如 图 15-17 Bros ,可 清楚 地 看 到 


每 个 网 页 的 等 级 。 
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FA 15-16 PageRank 算法 字段 设置 和 参数 设置 图 


15.5.1 
标签 传播 算法 是 一 类 





15.5 标签 传播 算法 


标签 传播 算法 原理 
监督 式 机 器 学 习 算 法 , 即 用 少量 已 知 数据 去 训练 模型 去 预测 大 


node 
a 
a 

b 

c 
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0.0375 
0.0534375 
0.07614844 


0.12493711 


图 15-17 实验 结果 


量 未 知 数据 的 性 质 。 标 签 传播 算法 还 可 以 应 用 于 网 页 的 重要 度 排 序 , 可 扩展 到 垃圾 信息 的 
屏蔽 、 信 任 评价 等 。 另 一 方面 ,标签 传播 算法 也 可 以 合并 迁移 学 习 , 进 行情 感 分 类 方面 的 


研究 。 
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1. 算法 原理 

标签 传播 算法 (Label Propagation Algorithm. LPA) 是 由 Zhu 等 人 于 2002 年 提出 的 ， 
它 是 一 种 基于 图 的 半 监 督学 习 方 法 ,其 基本 思路 是 : 用 已 标记 结 点 的 标签 信息 去 预测 未 标 
记 结 点 的 标签 信息 ,利用 样本 间 的 关系 建立 关系 完全 图 模型 。 在 完全 图 中 , 结 点 包括 已 标注 
和 未 标注 数据 ,其 边 表示 两 个 结 点 的 相似 度 , 结 点 的 标签 按 相 似 度 传递 给 其 他 结 点 。 标 签 数 
据 就 像 是 一 个 源头 ,可 以 对 无 标签 数据 进行 标注 , 结 点 的 相似 度 越 大 ,标签 越 容易 传播 。 
LPA 的 步骤 如 下 所 示 。 

CD 将 原 问题 转换 为 数学 形式 : 在 某 一 系统 中 , 设 Cm (cec) RR AL BE UG 
实例 标签 的 集合 ,xE R” 表示 一 个 实例 ,yEC 表示 xz 对 应 的 标签 , 则 原 问 题 等 价 于 : 利用 已 
Abs SEY BG EL = {Car ys Cras ye) setts Cus y) XR PLUME R A BH EU = (Gua: 
Yuti) Crude s yue2) «ttt (Tuti «ye 的 标签 , 即 y; € C 的 值 (i 一 wx 十 1,x 十 2, ,zx 十 1) ,一般 
情况 下 uc. 

(2) 构建 上 述 问 题 对 应 的 加 权 有 向 图 GS (V. ,E) «E rh Ti pi f V — Coi va ett vus) P vi 


表示 实例 cs 有 向 边 es BUR wy me o REOR EB sry 的 相似 度 ,其 中 | m |]? 
表示 向 量 x; zi 间 的 欧 氏 距离 ,o 为 参数 (具体 值 视 情况 而 定 ); 一 般 情况 下 ,默认 G 为 完全 
图 (还 可 以 只 保留 每 个 项 点 的 近邻 权重 ,此 时 对 应 的 邻接 矩阵 为 稀疏 的 相似 矩阵 )。 


(3) 令 P=(Py )wroxero 表 示 概 率 转移 矩阵 ,其 中 Py = 一 表示 顶点 v; 转向 顶点 








Sw, 
k=1 
j^ VHC 
Uj 的 概率 。 4 Y, (YiDuo dn S673 sYu= (OY), SEP Yi; 的 值 可 以 随便 
0, yw 天 ci 
FL Bes 
m p= | ad 
Fu Fu=Yu 
(4) BEAT i FER, 
Q 4 F-RF. 
@ Yd 


@ 重复 以 上 步骤 直至 下 不 再 变化 , 记 此 时 的 Fu H F iieu o 
(5) 基于 以 上 步骤 ,可 以 得 到 : 
Fue y = (1— Pw) PuY, 

Pu Pw 
Pu Pw 
PC yeti = 6) = Fu Gof), i—1,2,75105 j — 1,2, 

HP, P Outi — 6) XS ze+i 的 标签 为 cj 的 概率 ,Fi (i,j) 表 示 和 矩阵 Fug 第 i 行 第 j 
列 对 应 的 元 素 。 

LPA 具有 如 下 特点 。 

d) LPA 是 一 种 半 监 督学 习 算 法 ,具有 半 监 督学 习 算 法 的 以 下 两 个 假设 前 提 : 

CD 邻近 的 样本 点 拥有 相同 的 标签 。 根 据 该 假设 ,分 类 时 边界 两 侧 尽 可 能 地 避免 选择 较 
为 密集 的 样本 数据 点 ,而 是 尽量 选择 稀疏 数据 .便于 算法 利用 少量 已 标注 数据 指导 大 量 的 未 


th P=| Pu ER" .PwER™. np Ag: 





标注 数据 。 


@ 相同 流 结构 上 的 点 能 够 拥有 相同 的 标签 。 根 据 该 假设 ,未 标记 的 样本 数据 能 够 让 数 
据 空间 变 得 更 加 密集 ,便于 充分 分 析 局 部 区 域 特征 。 
(2) LPA 只 需 利用 少量 的 训练 标签 指导 ,利用 未 标注 数据 的 内 在 结构 、 分 布 规律 和 邻 
近 数 据 的 标记 , 即 可 预测 和 传播 未 标记 数据 的 标签 ,然后 合并 到 标记 的 数据 集中 。 该 算法 操 
作 简单 .运算 量 小 ,适合 大 规模 数据 信息 的 挖掘 和 处 理 。 
(3) LPA 可 以 通过 相近 结 点 之 间 的 标签 的 传递 来 学 习 分 类 , 它 不 受 数据 分 布 形状 的 局 
限 ,可 以 克服 一 些 算法 只 能 发 现 “ 类 圆 形 "结构 的 缺点 。 只 要 同一 类 的 数据 在 空间 分 布 上 是 
相近 的 ,那么 不 管 数据 分 布 是 什么 形状 ,都 能 通过 标签 传播 将 它们 分 到 同一 个 类 里 。 因 此 ， 
可 以 处 理 包 括 音频 、 视 频 、 图 像 及 文本 的 标注 ,检索 及 分 类 。 算 法 简单 .执行 速度 快 、 可 扩展 
















































































性 强 、 效 果 好 。 
【 例 15.4】 对 于 标签 集合 为 C— (1.2.3.4) ,实例 LER 的 系统 ,已 知 标签 实例 集 L 如 
表 15-3 所 示 。 
表 15-3 已 知 标签 实例 集 表 
xo p 横 d 标 9 * ob kh 签 
1 0. 800 280 469 0. 141 886 339 1 
2 0. 276 922 985 0. 046 171 391 1 
3 0. 373 745 209 0. 979 528 792 2 
4 1.170 535 502 0. 447 623 879 2 
5 2.787 790 87 1.049 951 298 3 
6 1. 141 337 541 1. 703 464 922 3 
tg 0. 609 512 076 3. 303 267 91 4 
8 3. 121 008 273 1.558 955 348 4 
未 知 标签 实例 集 U 如 表 15-4 所 示 。 
表 15-4 未 知 标签 实例 集 表 
实 p 横 o 标 9 坐 标 标 签 
1 0. 126 986 816 0. 913 375 856 未 知 
2 0. 632 359 246 0. 097 540 405 未 知 
3 0. 278 498 219 0. 546 881 519 未 知 
4 0.157 613 082 0. 970 592 782 未 知 
5 0. 655 740 699 0.035 711 679 未 知 
6 0.743 132 468 0. 392 227 02 未 知 
7 0. 655 477 89 0.171186 688 未 知 
8 0.706 046 088 0.031 832 846 未 知 
9 0. 194 263 562 1.646 915 657 未 知 
10 1. 389 657 246 0. 634 198 96 未 知 
11 1. 900 444 098 0. 068 892 161 未 知 
12 0. 877 488 719 0.763 116 914 未 知 
13 0. 891 172 401 1, 292 626 02 未 知 
14 0. 552 050 154 1. 359 405 354 未 知 
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BR 

实 例 横 d 标 A 坐 标 bh 签 

15 1. 310 196 008 0. 325 223 47 未 知 

16 0. 237 995 363 0. 996 728 104 未 知 

17 2.253 801 178 0. 765 285 346 未 知 

18 1.517 871 155 2. 097 230 168 未 知 

19 2. 522 151 768 0.762 846 537 未 知 

20 2. 442 854 478 0.730 574 906 未 知 

21 1. 848 134 028 1. 419 866 547 未 知 

22 1.054 978 521 2. 492 485 884 未 知 

23 1. 755 792 273 1. 649 170 825 未 知 

24 2. 751 580 991 0. 857 517 056 未 知 

25 2. 123 190 212 3.116 668 92 未 知 

26 3. 736 042 737 0. 519 624 834 未 知 

27 0. 648 729 233 3.177 138 163 未 知 

28 0. 915 907 875 3. 653 349 446 未 知 

29 0. 426 611 081 3. 847 592 323 未 知 

30 0.018 536 897 3.099 641 859 未 知 

31 1.039 481 611 3. 200 273 921 未 知 

32 1. 350 877 639 3. 600 215 386 未 知 

解 : BB o 73 1 BE W= Cw 40x40 WLM A,P 矩阵 见 附 录 A. 
Faeu 如 表 15-5 所 示 。 
表 15-5 Fume v BE 
实 例 | 标签 为 1 的 概率 | 标签 为 2 的 概率 | 标签 为 3 的 概率 | 标签 为 4 的 概率 | 预测 标签 

1 0. 361 050 562 | 0.446 883 376 | 0.149 613536 | 0.042 452 526 2 
2 0.449 554 217 | 0.397 883 739 | 0.119 072368 | 0.033 489676 1 
3 0.407 436 548 | 0.425 154 249 | 0.131070003 | 0.036 3392 2 
4 0.353125 076 | 0.448 281189 | 0.154 553353 | 0.044 040 382 2 
5 0.454 843 695 | 0.394424 711 | 0.117 558774 | 0.033 17282 1 
6 0. 409 032 857 | 0.416 850034 | 0.136 296 501 | 0.037 820 607 2 
7 0. 440 034 862 | 0.403 061069 | 0.122 538655 | 0.034 365415 1 
8 0.452118918 | 0.395 399 207 | 0.118 873785 | 0.033 60809 1 
9 0.269 818 877 | 0.422 798 722 | 0.214 732825 | 0.092 649577 2 
10 0.322 717 653 | 0.404407 978 | 0.210 69432 | 0.062 180049 2 
11 0. 300 450 253 | 0.370 575 437 | 0.247 932459 | 0.081041851 2 
12 0. 353 753 011 | 0.427068178 | 0.172177 288 | 0.047 001523 2 
13 0. 281971914 | 0.407 703057 | 0.239 628335 | 0.070 696 695 2 
14 0.291356 303 | 0.426 575 499 | 0.215 173978 | 0.066 894 22 2 
15 0.366 659016 | 0.410220 555 | 0.172303415 | 0.050 817014 2 
16 0. 348 159 938 | 0.447 205 815 | 0.159 420037 | 0.045 214 209 2 
17 0.194 092014 | 0.28164338 | 0.381873121 | 0.142 391484 3 
18 0.153199 206 | 0.242522 727 | 0.371495 265 | 0.232 782 802 3 

















续 表 












































实 例 | 标签 为 1 的 概率 | 标签 为 2 的 概率 | 标签 为 3 的 概率 | 标签 为 4 的 概率 | 预测 标签 
19 0.165 900176 | 0.242 418 247 | 0.420973996 | 0.170 707 581 3 
20 0.175 288 791 | 0.255 326 208 | 0.409 119 782 | 0.160 265 219 3 
21 0. 192 639 809 | 0.293 099 805 | 0.373 322859 | 0.140 937 527 3 
22 0.118 263 487 | 0.190 288048 | 0.290 563124 | 0.400 885 341 4 
23 0.181627 083 | 0.280 954 89 0. 381 502 628 | 0.155 915 399 3 
24 0. 142 493 477 | 0.208 946 072 | 0.445 200258 | 0.203 360194 3 
25 0.088 896 836 | 0.140 782 223 | 0.243 568312 | 0.526 752 629 4 
26 0.104 955 499 | 0.152420 928 | 0.472 533147 | 0.270 090 426 3 
27 0.067 523 249 | 0.108 257 147 | 0.168 8384 0. 655 381 203 4 
28 0.060 039 178 | 0.096 043 534 | 0.153 897 411 | 0.690 019 876 4 
29 0.055 481442 | 0.088 861 647 | 0.138 799941 | 0.716 856 97 4 
30 0.069 351391 | 0.111681 176 | 0.153 448162 | 0.665 519271 4 
31 0.070 382 423 | 0.112 517 355 | 0.184 222369 | 0.632 877 853 4 
32 0.065 482 476 | 0.104 566 86 0.171330593 | 0.658 62007 4 

















对 于 未 知 标签 实例 集 U ,其 真实 标签 为 : 实例 1 到 8 的 标签 为 1, 实 例 9 到 16 的 标签 为 
2, 实 例 17 到 24 的 标签 为 3, 实 例 25 到 32 的 标签 为 4; 结合 以 上 数据 分 析 可 知 标签 传播 聚 
算法 在 聚 类 和 分 类 上 的 实验 效果 很 好 。 


15.5.2 基于 阿里 云 数 加 平台 的 标签 传播 聚 类 应 用 实例 


阿里 云 机 器 学 习 平台 对 于 标签 传播 聚 类 算法 的 说 明 为 : 图 聚 类 是 根据 图 的 拓扑 结构 进 
行 子 图 的 划分 ,使 得 子 图 内 部 结 点 的 链接 较 多 , 子 图 之 间 的 连接 较 少 。 标 签 传播 算法 是 基于 
图 的 半 监 督学 习 方法 ,其 基本 思路 是 结 点 的 标签 依赖 其 邻居 结 点 的 标签 信息 ,影响 程度 由 结 
点 相似 度 决定 ,并 通过 传播 欠 代 更 新 达到 稳定 。 对 于 图 15-18 这 幅 图 使 用 标签 传播 聚 类 方 
法 , 即 根据 已 知 的 结 点 的 标签 信息 (如 结 点 1 为 0.7) 以 及 结 点 间 的 相似 度 关系 (如 结 点 1 和 
结 点 2 的 相似 度 为 0.7) 来 迭代 更 新 达到 稳定 后 ,会 得 到 各 个 结 点 的 新 的 标签 信息 。 


0.7 








B 15-18 待 使 用 数据 图 


数据 信息 如 图 15-19 所 示 。 

阿里 云 操作 流程 图 如 图 15-20 所 示 。 

标签 传播 聚 类 的 字段 信息 与 参数 设置 如 图 15-21 所 示 ,顶点 表 中 的 顶点 列 和 权 值 列 选 
择 已 知 表 中 对 应 的 两 列 即 可 , 边 表 的 设置 单 源 最 短路 径 算 法 一 致 ,最 大 迭代 次 数 可 自己 随机 
选择 ,这 里 选择 默认 参数 30. 

得 到 的 结果 如 图 15-22 所 示 , 即 每 个 结 点 新 的 标签 信息 。 
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图 15-19 数据 信息 图 15-20 标签 传播 聚 类 流程 图 


























Tae RTA 
node 
字段 设 置 seen cH 
最 大 迁 代 次 数 TS group ida 
30 1 1 
RRA 3 L 
2 1 
4 1 
5 5 
7 5 
6 5 
(a) (b) E 
图 15-21 标签 传播 聚 类 设置 界面 图 15-22 实验 结果 


15.6 最 大 联通 子 图 算法 


5E X15. 5. 对 于 无 向 图 G— (V ED 3$ G' — (V' EO i E 

(1) GAG 的 子 图 。 

(2) G' 是 联通 的 。 

(3) 任意 顶点 eE(V 一 V) 加 入 到 G' 中 组 成 的 新 子 图 是 不 联通 的 。 
则 G' 是 G 的 最 大 联通 子 图 。 


求解 无 向 图 最 大 联通 子 图 的 方法 有 深度 优先 搜索 法 (Depth First Search,DFS) 和 广度 
优先 搜索 法 (Breadth First Search. BFS). 

1. 深度 优先 搜索 法 

假设 初始 状态 是 图 中 所 有 顶点 未 曾 被 访问 , 则 深度 优先 搜索 可 从 图 中 某 个 顶点 wv 出发， 
访问 此 顶点 ,然后 依次 从 wv 的 未 被 访问 的 邻接 点 出 发 深度 优先 遍历 图 ,直至 图 中 所 有 和 wv 有 
路 径 相通 的 顶点 都 被 访问 到 (此 时 所 访问 过 的 点 构成 一 个 最 大 联通 子 图 ); 若 此 时 图 中 尚 有 
顶点 未 被 访问 , 则 另 选 图 中 一 个 未 曾 被 访问 的 项 点 作 起 始点 ,重复 上 述 过 程 ,直至 图 中 所 有 
顶点 都 被 访问 到 为 止 。 在 用 深度 优先 搜索 法 对 图 进行 遍历 过 程 中 ,每 重 选 一 个 出 发 点 就 对 
应 构成 一 个 最 大 联通 子 图 。 

2. 广度 优先 搜索 法 

假设 从 图 中 某 顶点 v 出 发 ,在 访问 了 wv 之 后 依次 访问 wv 的 各 个 未 曾 访问 过 的 邻接 点 , 然 
后 分 别 从 这 些 邻 接点 出 发 依次 访问 它们 的 邻接 点 ,并 使 “ 先 被 访问 的 顶点 的 邻接 点 ” 先 于 “后 
被 访问 的 顶点 的 邻接 点 ”被 访问 ,直至 图 中 所 有 已 被 访问 的 顶点 的 邻接 点 都 被 访问 到 。 若 此 
时 图 中 尚 有 顶点 未 被 访问 , 则 另 选 图 中 一 个 未 曾 被 访问 的 顶点 作 起 始点 ,重复 上 述 过 程 , 直 
至 图 中 所 有 顶点 都 被 访问 到 为 止 。 换 句 话说 ,广度 优先 搜索 遍历 图 的 过 程 是 以 v 为 起 始点 ， 
由 近 至 远 ,依次 访问 和 ww 有 路 径 相通 且 路 径 长 度 为 1,2,… 的 顶点 。 在 用 深度 优先 搜索 法 对 
图 进行 遍历 过 程 中 ,每 重 选 一 个 出 发 点 就 对 应 构成 一 个 最 大 联通 子 图 。 

【 例 15.5】 用 深度 优先 搜索 法 求 如 图 15-23 所 示 的 最 大 联通 子 图 。 

解 : 

CD 从 人 A 点 出 发 依次 经 过 的 点 为 : L.M.J.B.C.F. 

(2) IAD 点 出 发 依次 经 过 的 点 为 : E. 

(3) 从 工 点 出 发 依次 经 过 的 点 为 : G,H,K。 

(4) 完成 对 图 15-23 顶点 的 遍历 ,对 应 的 最 大 联通 子 图 如 图 15-24 所 示 。 


Q (B) 
(O 
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图 15-23 用 深度 优先 搜索 法 求 图 的 联通 子 图 图 15-24 最 大 联通 子 图 结果 








【 例 15.6】 用 广度 优先 搜索 法 求 如 图 15-25 所 示 的 最 大 联通 子 图 。 

解 : 

OD 从 人 点 出 发 依次 经 过 的 点 为 : B,C,F,L; M.J. 

(2) 从 D 点 出 发 依次 经 过 的 点 为 : E. 

(3) 从 工 点 出 发 依次 经 过 的 点 为 : G.H.K. 

(4) 完成 对 图 15-25 顶点 的 遍历 ,对 应 的 最 大 联通 子 图 如 图 15-26 所 示 。 
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图 15-25 用 广度 优先 搜索 法 求 最 大 联通 子 图 图 15-26 最 大 联通 子 图 结果 


15.7 “ 聚 类 系数 算法 


15.7.1 聚 类 系数 算法 原理 


聚 类 系数 (clustering coefficient) 是 关于 复杂 网 络 的 一 个 非常 重要 的 测度 , 它 刻 画 了 复 
杂 网 络 中 点 的 邻居 中 实际 存在 的 边 与 该 点 邻居 中 可 能 存在 的 边 的 比值 的 平均 值 。 目 前 , 聚 
类 系数 有 两 个 不 同 的 最 基本 的 定义 。 其 一 , Watts 和 Strogatz 在 其 创造 性 的 小 世界 网 络 模 
型 中 首先 提出 了 聚 类 系数 的 概念 , 记 为 C; 其 二 ,在 Watts 和 Strogatz 提出 聚 类 系数 不 久 ， 
Newman Watts 和 Strogatz 定义 了 与 前 者 相近 的 一 个 概念 tran-sitivity, 记 为 C*。 


定义 15.6: 在 无 向 图 GC(V,E) 中 三 元 体 (Triple) 
的 形状 如 图 15-27 (a) 所 示 , = fa Je (Triangle) 的 形状 P rs 
如 图 15-27(b) 所 示 。 


定义 15.7: 在 无 向 图 G(V,E) 中 ,对 于 顶点 ve ® o 
V, 设 k(v) 表 示 v ll BE. jiji d£ V S= (v; € V|v; 5 v 4H 图 15-27 无 向 图 中 三 元 体 
邻 } 边 集 E, = ej EE, | visu; 均 属 于 VG 的 子 图 
N,=G(V,.E,) AER i v 的 邻居 ,E(v) 表 示 N, 的 边 数 。 则 有 以 下 定义 : 

TA v 的 聚 类 系数 为 ， 
2E(v) 


CO» = Yay GG) —D 


当 k(v)==1 时 , 令 C(v)=1; 





图 GC(V,E) 的 聚 类 系数 为 : 
Mew) 
— veVv 
a= Iv] 
或 
c 3 x Bl G 中 三 角形 的 数量 








图 G 中 所 有 项 点 对 于 三 元 体 数 量 的 和 
HE: 上 述 对 于 点 的 聚 类 系数 的 定义 对 二 部 图 是 有 用 的 (对 于 二 部 图 来 说 ,在 上 述 定义 下 
点 的 聚 类 系数 均 为 0 或 1)。 
定义 15.8: 在 无 向 图 GC(V,E) 中 ,对 于 以 顶点 wu 为 端点 的 边 er EE, 设 zu RRA 
边 ej 的 所 有 三 角形 的 个 数 ,k(v)、k(vi) 分 别 表示 顶点 vi vo; 的 度 ,V。、V 分别 表示 与 顶点 
v; vu 相 邻 顶点 的 集合 , 则 边 6 的 聚 类 系数 定义 为 : 








ECC(e;) 


ii 
min{k(vi) —1,k(v:) — 1} 


当 边 存在 度 为 1 的 端点 时 , 令 其 聚 类 系数 为 1。 


或 
ECC’ (eg) 


| Ve, Ve, [+1 
min{k(v;) — 1,kCu) — 1} 








[5| 15.7]. 对 于 如 图 15-28 所 示 的 无 向 图 G, 其 各 项 点、 各 


边 的 聚 类 系数 ,以 及 基于 点 聚 类 系数 


的 图 G 的 聚 类 系数 。 


解 : WR G 中 1、2、3、4、5 位 置 对 应 的 顶点 为 vi cvs cvs. 3 


U4 vU5 o 
CD 对 于 顶点 v, REJ k) 
数 为 
2E(Cu) 


二 2,E(w) 二 1, 则 其 聚 类 系 


A zd 











Cin) 


kvi) X GG) — 1) 2 


同 理 ,对 于 顶点 ve us va us 有: 


Ci) = + c 


4 3 
11528 无 向 图 G 


ai= C= 0 Cs 2 


(2) 对 于 边 eres z12=1,k(v1) =2 kv) = 4, 


ECC(ez) = 一 __=1 
min 


同 理 , 对 于 边 eis .ezs ez vens ess 
ECC(e;) = 1, ECC(ez = 1), 


:有 


ECC(ea) — 1. ECC(es) =1, ECC(es) 一 1。 
(3) 图 G 中 ,三 角形 的 数目 为 2, 顶 点 vo、vs、v4、vs 对 应 的 三 元 组 的 数目 分 别 为 3、4、 
3.3.2。 基 于 点 聚 类 系数 的 图 G 的 聚 类 系数 为 


1 2 
l+z+1+0+4 











3 
5 5 
3x2 2 
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15.7.2. 基于 阿里 云 数 加 平台 的 聚 类 系数 算法 应 用 实例 

阿里 云 机 器 学 习 平台 对 其 说 明 : 点 聚 类 系数 ,在 无 向 图 G 中 ,计算 每 一 个 结 点 周围 的 秽 
密度 。 边 聚 类 系数 ,在 无 向 图 G( 如 图 15-29 所 示 ) 中 ,计算 每 一 条 边 周 围 的 稠密 度 。 借 用 操 
fE K-core 方法 的 数据 和 图 来 操作 上 面 两 个 方法 。 阿 里 云 流程 图 如 图 15-30 所 示 。 


图 15-29 数据 图 
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K 15-30 ” 聚 类 系数 算法 流程 图 
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点 聚 类 系数 的 字段 设置 和 参数 设置 以 及 边 聚 类 系数 的 字段 设置 如 图 15-31 所 示 。 















































起 始 节 点 输入 起 始 节 点 列 名 

flow_out_id 
终止 节点 终止 节点 列 名 字段 设置 执行 调 优 

flow_in_id 

aps 起 始 节 点 列 名 
字段 设置 参数 设置 执行 调 优 flow out id 
最 大 节点 度 者 节点 度 大 于 该 值 ， 则 进行 抽样 SEEN 
flow in id 
so | 
(a) (b) 


图 15-31 边 聚 类 系数 的 设置 界面 


点 聚 类 系数 方法 得 到 的 结果 如 图 15-32 所 示 。 


node node cnt edge cnta densiya 10g_densiy a 
| 3 3 1 1.49038 
2 3 3 1 1.49038 
3 5 4 04 1.45657 
4 3 3 1 1.49038 
5 2 1 1 1.24696 
6 2 1 4 124606 


图 15-32 ”点 聚 类 系数 方法 的 实验 结果 


边 聚 类 系数 方法 得 到 的 结果 如 图 15-33 所 示 。 


node1 edge cnt node2 edge cnt 


"m" "n" RN 
= 
“a ase 
NON WW c MH www» 
» 
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e 
E 





FA 15-33 边 聚 类 系数 方法 的 实验 结果 


15.8 基于 阿里 云 数 加 平台 的 社交 网 络 分 析 实 例 


【 例 15.8】 基于 阿里 云 数 加 平台 ,运用 单 源 最 短路 径 方法 、 标 签 传播 算法 和 PageRank 
方法 分 析 基 于 社交 网 络 的 欺诈 用 户 。 

解 : 图 15-34 是 已 知 的 一 份 人 物 通联 关系 图 ,每 两 个 人 之 间 的 连 线 表 示 两 人 有 一 定 关 
系 , 可 以 是 同事 关系 或 者 亲人 关系 等 。 已 知 Enoch 是 信用 用 户 ,Evan 是 欺诈 用 户 , 计 算出 
其 他 人 的 信用 指数 。 通 过 图 算法 ,可 以 算出 图 中 每 个 人 是 欺诈 用 户 的 概率 。 























图 15-34 人物 关系 图 


数据 信息 如 图 15-35 所 示 。 阿 里 云 操作 流程 图 如 图 15-36 所 示 。 





o ABEER ©) 
Star poita ^ end pointa counta 
Enoch Evan 10 
Enoch Gregary 2 DRAFT. © 
Gregary Hale 6 
Evan Hugo 2 sagi ©) 
Evan Jeff 4 : 
UN [om 7 JOINT [7] 
Jeff Keith 5 
Hale Jeff 1 
Keith Leif 3 SRR. ©) Pagani 日 
Keith Lionel 1 SuSE O 
Leif Mick 4 
Lionel Noah 8 é ~ 
Mick Noah 9 EM e) 
Parker Rex 2 
Rex Stan 11 | 
Parker ‘Stan T 6 KRES. ©) 
图 15-35 数据 信息 图 图 15-36 阿里 云 操作 流程 图 





社交 网 络 分 析 方 法 及 应 用 
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最 大 联通 子 图 ,可 以 找到 有 通联 关系 的 最 大 集合 ,图 15-34 4 F7; Rex, Parker, Stan, X 
系 上 是 独立 于 其 他 人 的 ,因此 可 以 使 用 该 方法 将 数据 分 为 两 部 分 ,并 使 用 SQL 脚本 和 JOIN 
方法 将 其 删除 。 其 字段 设置 与 执行 调 优 信息 如 图 15-37 所 示 。 

得 到 的 结果 如 图 15-38 所 示 。 



































m gr ida 
Hale Noah 
Leif Noah 
Rex Stan 
+208 执行 调 优 ese reci 
Keith Noah 
进程 数量 Jeff Noah 
ELI dn BATRA irail] | Sem 
Evan Noah 
Babe SIDA EDI muri Lione Noah 
start. point | Mick Noah 
Gregary Noah 
wees nen 数据 切 分 大 小 (MB) 
总 Leaked 64 Noah Noah 
end_point — Stan Stan 
(a) (b) eas) be 
图 15-37 最 大 联通 字 图 方法 设置 界面 图 15-38 最 大 联通 子 图 
实验 结果 


SQL 脚本 方法 使 用 的 MaxCompute-SQL 语句 和 得 到 的 结果 分 别 如 图 15-39 所 示 。 


























GAR nodei a 
tt fromName^R EGIT 8-17 Hale 
Š Leit 
le E = 
A Keith 
Jeff 
肢 本 编辑 Evan 
1 一 输入 数据 已 自动 映射 成 tl~ta, 使 用 方式 如 : select + from ${t1} Lionel 
2 一 用 户 也 可 以 直接 输入 0?s 夫 使 用 。 
3 一 本 组 件 支持 ODPS SQL 的 所 有 语法 , 最 后 一 条 SQL 必 须 为 ssleet 语 句 ， 查询 结果 作 = 
pee] tov 
4 select nodel fron $[1] where grp id- Nosh’ :| aaa 
Enoch 
(a) (b) 


图 15-39 SQL 脚本 中 的 类 SQL 语句 及 得 到 的 结果 





如 图 15-39(b) 的 结果 所 示 , 删 除了 grp_id 二 “Stan” 的 数据 。JOIN 方法 的 字段 设置 如 
图 15-40 所 示 。 

其 中 ,连接 类 型 有 左 连接 、 内 连接 、 右 连接 、 全 连接 4 种 方式 ,可 手动 添加 或 删除 关联 条 
件 , 右 表 输出 字段 列 为 count、start_point 和 end_point。 得 到 的 结果 如 图 15-41 所 示 , 是 删 
除了 那 三 个 独立 的 人 之 后 的 数据 表 。 





























Enoch Gregary 2 
FRE Enoch Evan 10 
Evan Jeff H 
Eu Evan Hugo 2 
nek Gregary Keith 7 
关联 条件 e Gregary Hale 6 
nodei = | start_point Jeff Keith 5 
Mick Noah 9 
RTRA Hale Jeff 11 
ERR Keith Lionel 1 
PERSP Wii ea 2 
3 个 字段 aad WE * 
Lionel Noah B 
图 15-40 JOIN 方法 的 设置 界面 图 15-41 JOIN 方法 后 的 实验 结果 


单 源 最 短路 径 , 用 来 计算 图 中 一 个 点 到 另 一 个 点 的 最 短 距 离 , 其 字段 设置 和 参数 设置 如 
图 15-42 所 示 ,起 始 结 点 ID 选择 的 是 Enoch. 
得 到 的 结果 如 图 15-43 所 示 ,distance 表示 Enoch 通过 几 个 人 可 以 联络 到 目标 人 。 


























选择 源 硕 点 列 | start node a bui tnode distance a distance cnl 
start point Enoch Hale 2 1 
BREED! E moa z 2 
Enoch Hugo 2 1 
end_point | 
| Enoch Keith 2 1 
迁 择 边 权 值 列 Enoch Jef 2 1 
Enoch Evan 1 1 
z Enoch Lionel 3 1 
字段 设置 参数 设置 执行 调 优 Enoch Mick F A 
E Enoch Gregary 1 1 
Enoch Noah 4 1 
Enoch 
Enoch Enoch 0 0 
图 15-42 单元 最 短路 径 方法 的 设置 界面 E 15-43 单 源 最 短路 径 方 法 得 到 的 实验 结果 


PageRank, 起 于 网 页 的 搜索 排序 ,这 里 用 来 表示 每 个 人 的 权重 排名 。 其 字段 信息 与 参 
数 设 置 如 图 15-44 所 示 。 得 到 的 结果 如 图 15-45 所 示 。 

标签 传播 分 类 ,该 算法 为 半 监 督 的 分 类 算法 ,原理 为 用 已 标记 结 点 的 标签 信息 去 预测 未 
标记 结 点 的 标签 信息 。 在 算法 执行 过 程 中 ,每 个 结 点 的 标签 按 相 似 度 传播 给 相 邻 结 点 ,在 结 
点 传播 的 每 一 步 , 每 个 结 点 根据 相 邻 结 点 的 标签 来 更 新 自己 的 标签 ,与 该 结 点 相似 度 越 大 ， 
其 相 邻 结 点 对 其 标注 的 影响 权 值 越 大 ,相似 结 点 的 标签 越 趋 于 一 致 ,其 标签 就 越 容易 传播 。 
在 标签 传播 过 程 中 ,保持 已 标注 数据 的 标签 不 变 , 使 其 像 一 个 源头 把 标签 传 向 未 标注 数据 。 
最 终 , 当 迭代 过 程 结束 时 ,相似 结 点 的 概率 分 布 也 趋 于 相似 ,可 以 划分 到 同一 个 类 别 中 ,从 而 
完成 标签 传播 过 程 。 已 知 的 标签 结 点 信息 便 是 流程 图 中 的 已 知 数据 ,信息 如 图 15-46 所 示 。 
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Evan 0.02329545 
Lionel 0.025927 
Mick 0.05656841 








Gre.  0.01556818 | pointa | point ypea weight = 
Noah 。 0.08375746 Enoch “信用 用 户 1 
Enoch 0.01363636 Evan ROR 08 

图 15-45 单 源 最 短路 径 方法 得 到 的 实验 结果 图 15-46 已 知 数据 的 信息 


其 字段 信息 与 参数 设置 如 图 15-47 所 示 。 

































































TREE SSP 
point 
TER RES 
point_type 
es JRE smaa ed 
weight 
边 表 : ELSE 
Start_point 8 
OR: RRB Rem 
end point 08 
边 表 : 选择 权 值 列 MS 
pem 0.000001 
@) (b) 


图 15-47 标签 传播 分 类 方法 的 设置 界面 


得 到 的 结果 如 图 15-48 所 示 。 
经 过 SQL 语句 “select * from $ (t1) where tag 王 ' 其 诈 用 户 '; ”删除 信用 用 户 之 后 的 
结果 如 图 15-49 所 示 。 





Hugo EK. 4 

Keith RR. 02264783897173419 

Keith a. 0.7735216102826581 

Jet 其 0.34784053907648443 

Jet — f&. | 06521594609235155 

Lione BR. 0.2938277295951075 

Lionel fa... 0.7061722704048925 

Ge. 信 1 

Enoch 信 1 ote ae 

Hale fā. 1 Hugo X. 1 

Leif W- 024091136964145973 Keith W.  0.2264783897173419 

Leif f&. 0.7590886303585404 Jeff Em. 0.34784053907648443 

Evan R- 08 Lionel Hk. 0.2938277295951075 

Mick — WX. — 0:3113287445872401 Leif — Ek. 024091136964145973 

Mick fã. | 0.68867125541276 Eun Xt. os 

Noah W. — 0.42059743476528927 Mick W. — 03113287445872401 

Noah 4 N 5704025852247107. Noah H. 042059743476528927 
图 15-48 标签 传播 分 类 方法 得 到 的 实验 结果 图 15-49 最 终 实验 结果 


从 而 得 到 了 每 个 欺诈 用 户 及 其 概率 。 
15.9 处 结 


社交 网 络 是 一 个 系统 ,具有 如 下 特点 。 

(1) 系统 中 的 主体 是 用 户 (User) ,用户 可 以 公开 或 半 公 开 个 人 信息 。 

(2) 用 户 能 创建 和 维护 与 其 他 用 户 之 间 的 连接 (或 朋友 ) 关 系 及 个 人 预 分 享 的 内 容 信 息 
(如 日 志 或 照片 等 )。 

(3) 用 户 通过 连接 (或 朋友 ) 关 系 能 浏览 和 评价 朋友 分 享 的 信息 。 

K-core(K- 核 ) 的 概念 由 Seidman 于 1983 年 在 论文 “Network Structure and Minimum 
Degree” 中 提出 , 它 可 用 来 描述 度 分 布 所 不 能 描述 的 网 络 特征 ,揭示 源 于 系统 特殊 结构 的 结 
构 性 质 和 层次 性 质 。 

标签 传播 算法 是 一 类 半 监 督 式 机 器 学 习 算法 , 即 用 少量 已 知 数据 去 训练 模型 去 预测 大 
量 未 知 数据 的 性 质 。 标 签 传 播 算 法 还 可 以 应 用 于 网 页 的 重要 度 排 序 , 可 扩展 到 垃圾 信息 的 
屏蔽 、 信 任 评价 等 。 另 一 方面 ,标签 传播 算法 也 可 以 合并 迁移 学 习 , 进 行情 感 分 类 方面 的 
研究 。 

聚 类 系数 (clustering coefficient) 是 关于 复杂 网 络 的 一 个 非常 重要 的 测度 , 它 刻画 了 复 


杂 网 络 中 点 的 邻居 中 实际 存在 的 边 与 该 点 邻居 中 可 能 存在 的 边 的 比值 的 平均 值 。 = 
章 
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。 简 述 K- 核 方法 的 原理 。 

. 简 述 单 源 最 短路 径 方 法 的 原理 。 

. 简 述 PageRank 方法 的 含义 。 

. 简 述 标签 传播 算法 的 原理 。 

. 简 述 最 大 联通 子 图 算法 的 原理 。 

. 简 述 聚 类 系数 方法 的 原理 。 

.基于 阿里 云 数 加 平台 对 K- 核 方法 、 单 源 最 短路 径 方法 .PageRank 方法 、 标 签 传播 算 
法 、 聚 类 系数 算法 等 进行 应 用 操作 。 
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第 16 章 文本 分 析 方 法 及 应 用 





16.1 文本 分 析 简 介 


文本 分 析 是 指 对 文本 的 表示 及 其 特征 项 的 选取 。 文 本 分 析 是 文本 挖掘 、 信 息 检 索 的 一 
个 基本 问题 , 它 把 从 文本 中 抽取 出 的 特征 词 进行 量化 来 表示 文本 信息 。 文 本 分 析 的 目的 是 
将 它们 从 一 个 无 结构 的 原始 文本 转化 为 结构 化 的 计算 机 可 以 识别 处 理 的 信息 , 即 对 文本 进 
行 科学 的 抽象 ,建立 它 的 数学 模型 ,用 以 描述 和 代 蔡 文本 ,使 计算 机 能 够 通过 对 这 种 模型 的 
计算 和 操作 来 实现 对 文本 的 识别 。 

由 于 文本 是 非 结构 化 的 数据 ,要 想 从 大 量 的 文本 中 挖掘 有 用 的 信息 就 必须 首先 将 文本 
转化 为 可 处 理 的 结构 化 形式 。 目 前 通常 采用 向 量 空间 模型 来 描述 文本 向 量 ,但 是 如 果 直 接 
用 分 词 算法 和 词 频 统计 方法 得 到 的 特征 项 来 表示 文本 向 量 中 的 各 个 维 ,那么 这 个 向 量 的 维 
度 将 是 非常 的 大 。 这 种 未 经 处 理 的 文本 矢量 不 仅 给 后 续 工作 带 来 巨大 的 计算 开销 ,使 整个 
处 理 过 程 的 效率 非常 低下 ,而 且 会 损害 分 类 、 聚 类 算法 的 精确 性 ,从 而 使 所 得 到 的 结果 很 难 
令 人 满意 。 因 此 必须 对 文本 向 量 做 进一步 净化 处 理 , 在 保证 原文 含义 的 基础 上 找 出 对 文本 
特征 类 别 最 具 代表 性 的 文本 特征 。 为 了 解决 这 个 问题 ,最 有 效 的 办 法 就 是 通过 特征 选择 来 
降 维 。 因 此 ,文本 表示 模型 的 选择 和 特征 词 选择 算法 的 选取 是 文本 分 析 的 重要 研究 内 容 , 特 
征 选择 和 特征 提取 的 方法 在 第 2 章 已 经 进行 了 介绍 ,本 章 重点 介绍 与 文本 表示 模型 相关 的 
方法 和 技术 。 


16.2 TF-IDF 方法 


定义 16. 1: TF-IDF (Term Frequency-Inverse Document Frequency ) 是 一 种 用 于 信息 
检索 与 数据 挖掘 的 加 权 技 术 , 用 来 评估 一 个 字 词 对 于 一 个 文件 集 或 一 个 语料库 中 的 其 中 一 
份 文件 的 重要 程度 。 

定义 16.2: 词 频 (Term Frequency,TF) 是 指 某 个 给 定 词语 在 某 文件 出 现 的 频率 。 为 了 
防止 词 数 偏向 长 的 文件 (同一 个 词语 在 长 文件 里 的 词 数 可 能 会 比 短文 件 中 的 较 大 ) ,需要 进 
行 归 一 化 处 理 。 对 于 含有 种 词 的 文件 集 D 中 的 某 一 文件 dj, 设 nj 表示 第 i 种 词 在 该 文件 
出 现 的 次 数 ,TF; 表 示 第 i 种 词 在 文件 dj; 的 TF 值 , 则 有 : 


TF; = =i 
i Dns 
k 
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$E X16. 3. 逆向 文件 频率 (Inverse Document Frequency ,IDF) 用 来 衡量 某 一 词语 在 文 
件 集 的 重要 性 。 对 文件 集 DD, 设 1D| 表 示 D PCH T C | D; | os D 中 含有 第 i 种 词 的 文 
件 的 个 数 ,IDF; 表示 第 i 种 词 在 文件 集 D 的 TF 值 , 则 有 : 


ID| 
| Di | 1 


通常 取 以 10 为 底 的 对 数 ,分 母 中 的 1 是 为 了 避免 出 现 分 母 为 零 的 情况 。TFI-DF 算法 
是 建立 在 如 下 假设 之 上 。 

CD 对 区 别 文 件 最 有 意义 的 词语 应 该 是 那些 在 文件 中 出 现 频率 较 高 ,而 在 整个 文件 集 
的 其 他 文件 中 出 现 频率 较 低 的 词 , 所 以 如 果 特 征 空间 坐标 系 取 TF 作为 测度 ,就 可 以 体现 同 
类 文本 的 特点 。 

(2) 考虑 到 单个 词 区 别 不 同文 件 的 能 力 ,TFI-DF 算法 认为 一 个 词 出 现在 不 同文 件 的 频 
数 越 小 , 它 区 别 不 同文 件 的 能 力 就 越 大 。 因 此 引入 了 逆向 文件 频率 IDF 的 概念 ,以 TF 和 
IDF 的 乘积 作为 特征 空间 坐标 系 的 取 值 测度 ,并 用 它 完 成 对 权 值 TF 的 调整 ,调整 权 值 的 目 
的 在 于 突出 重要 单词 ,抑制 次 要 单词 。 但 是 在 本 质 上 IDF 是 一 种 试图 抑制 噪音 的 加 权 , 并 
且 单 纯 地 认为 文本 频数 小 的 单词 就 越 重要 ,文本 频数 大 的 单词 就 越 无 用 ,显然 这 并 不 是 完全 
正确 的 。 综 合 考 虑 , 某 一 文件 中 第 i 种 词 的 TFI-DF 值 定义 为 : 

TF-IDF; = TF; - IDF; 

IDF 的 简单 结构 并 不 能 有 效 地 反映 单词 的 重要 程度 和 特征 词 的 分 布 情况 ,使 其 无 法 很 
好 地 完成 对 权 值 调整 的 功能 ,所 以 TF-IDF 法 的 精度 并 不 是 很 高 。 

【 例 16.1】 假如 某 文 件 集 D 中 文件 个 数 是 10 000 000 个 ,词类 种 数 为 k(k 未 知 )。 第 i 
种 词 在 D 中 1000 份 文件 出 现 过 ,其 中 在 文件 d; 中 出 现 了 3 次 ,而 文件 d; 的 总 词语 数 是 
100 个 , 求 文件 d 中 第 i 种 词 的 TFI-DF fü. 

f; TF, ny 3 


Dny 10 
k 


TF-IDF; = TF; X IDF; = 0. 03 X 4 = 0. 12 


16.3 ”中 文 分 词 方法 


词 是 最 小 的 ,能 够 独立 活动 的 有 意义 的 语言 成 分 ,英文 单词 之 间 是 以 空格 作为 自然 分 
界 符 的 ,而 汉语 是 以 字 为 基本 的 书写 单位 ,词语 之 间 没 有 明显 的 区 分 标记 ,因此 ,中 文 分 词 是 
中 文 信息 处 理 的 基础 与 关键 。 

分 词 技术 针对 用 户 提 交 查 询 的 关键 词 串 进 行 的 查询 处 理 后 ,根据 用 户 的 关键 词 串 用 各 
种 匹配 方法 进行 分 词 的 一 种 技术 。 常 见 的 分 词 方法 分 为 三 类 : 基于 字典 或 词 库 匹配 的 分 词 
方法 、 基 于 词 频 度 统计 的 分 词 方法 以 及 基于 知识 理解 的 分 词 方 法 等 。 


16.3.1 基于 字典 或 词 库 匹配 的 分 词 方 法 


基于 字典 或 词 库 匹 配 的 分 词 方法 又 叫 机 械 分 词 方法 , 它 是 按照 一 定 的 策略 将 待 分 析 的 
汉字 串 与 一 个 "充分 大 的 ?机 器 词典 中 的 词 条 进行 匹配 , 若 在 词典 中 找到 某 个 字符 串 , 则 匹配 
成 功 (识别 出 一 个 词 )。 按 照 扫描 方向 的 不 同 , 字 符 串 匹配 分 词 方法 可 以 分 为 正 向 匹配 和 逆 
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向 匹配 ; 按照 不 同 长 度 优先 匹配 的 情况 ,可 以 分 为 最 大 (最 长 ) 匹 配 和 最 小 (最 短 ) 匹 配 ; 按 
照 是 否 与 词性 标注 过 程 相 结合 ,又 可 以 分 为 单纯 分 词 方法 和 分 词 与 词性 标注 相 结合 的 一 体 
化 方法 。 

1. 正 向 最 大 匹配 法 

最 大 正 向 匹配 法 的 基本 思想 为 : 假定 分 词 词典 中 的 最 长 词 有 i 个 汉字 字符 , 则 用 被 处 
理 文档 的 当前 字 串 中 的 前 i 个 字 作为 匹配 字段 ,查找 字典 。 若 字典 中 存在 这 样 的 一 个 i 字 
词 , 则 匹配 成 功 ,匹配 字段 被 作为 一 个 词 切 分 出 来 。 如 果 词 典 中 找 不 到 这 样 的 一 个 i 字 词 ， 
则 匹配 失败 ,将 匹配 字段 中 的 最 后 一 个 字 去 掉 , 对 剩 下 的 字 串 重新 进行 匹配 处 理 , 如 此 进行 
下 去 直到 匹配 成 功 , 即 切 分 出 一 个 词 或 剩余 字 串 的 长 度 为 零 为 止 。 这 样 就 完成 了 一 轮 匹 配 ， 
然后 取 下 一 个 : 字 字 串 进行 匹配 处 理 ,直到 文档 被 扫描 完 为 止 。 简 单 而 言 , 正 向 最 大 匹配 法 
就 是 把 一 个 词 从 左 至 右 来 分 词 ,例如 ,不 知道 你 在 说 什么 ”这 句 话 采用 正 向 最 大 匹配 法 的 
结果 是 :“ 不 知道 ”“ 你 ”“ 在 ”和 “说 什么 ”。 

2. 反 向 最 大 匹配 法 

反 向 最 大 匹配 法 的 基本 原理 与 正 向 最 大 匹配 法 相同 ,不 同 的 是 分 词 切 分 的 方向 与 正 向 
最 大 匹配 法 相反 ,而 且 使 用 的 分 词 辞典 也 不 同 。 反 向 最 大 匹配 法 从 被 处 理 文档 的 末端 开始 
匹配 扫描 ,每 次 取 最 末端 的 2i 个 字符 作为 匹配 字段 , 若 匹配 失败 , 则 去 掉 匹 配 字段 最 前 面 的 
一 个 字 , 继 续 匹配 。 相 应 地 , 它 使 用 的 分 词 词典 是 逆序 词典 ,其 中 的 每 个 词 条 都 将 按 逆序 方 
式 存放 。 在 实际 处 理 时 , 先 将 文档 进行 倒 排 处 理 , 生 成 逆序 文档 。 然 后 ,根据 逆序 词典 ,对 逆 
序 文档 用 正 向 最 大 匹配 法 处 理 即 可 。 简 单 地 说 , 反 向 最 大 匹配 法 就 是 把 一 个 词 从 左 至 右 来 
分 词 ,例如 ,“ 不 知道 你 在 说 什么 ”这 句 话 采用 反 向 最 大 匹配 法 的 结果 是 :“ 不 “知道”"“ 你 
在 ”“ 说 ”和 “什么 ”。 

由 于 汉语 中 偏 正 结 构 较 多 , 若 从 后 向 前 匹配 可 以 适当 提高 精确 度 。 所 以 反 向 最 大 匹配 
法 比 正 向 最 大 匹配 法 的 误差 要 小 。 例 如 , 切 分 字段 “硕士 研究 生产 ”, 正 向 最 大 匹配 法 的 结果 
会 是 “人 磺 士 研究 生 / 产 ”, 而 反 向 最 大 匹配 法 利用 逆向 扫描 ,可 得 到 正确 的 分 词 结果 “硕士 / 研 
ME”: 

当然 ,最 大 匹配 算法 是 一 种 基于 分 词 词典 的 机 械 分 词法 ,不 能 根据 文档 上 下 文 的 语义 特 
征 来 切 分 词语 ,对 词典 的 依赖 性 较 大 ,所 以 在 实际 使 用 时 难免 会 造成 一 些 分 词 错误 。 为 了 提 
高 系统 分 词 的 准确 度 ,可 以 采用 正 向 最 大 匹配 法 和 反 向 最 大 匹配 法 相 结 合 的 分 词 方案 。 

3. 双向 匹配 分 词法 

双向 匹配 法 将 正 向 最 大 匹配 法 与 反 向 最 大 匹配 法 组 合 , 先 根 据 标点 对 文档 进行 粗 切 分 ， 
把 文档 分 解 成 若干 个 句子 ,然后 再 对 这 些 句子 用 正 向 最 大 匹配 法 和 反 向 最 大 匹配 法 进行 扫 
描 切 分 ,如 果 两 种 分 词 方法 得 到 的 匹配 结果 相同 , 则 认为 分 词 正确 ; 否则 , 按 最 小 集 处 理 。 

4. 最 短路 径 分 词法 

就 是 说 一 段 话 里 面 要 求 分 出 的 词 数 是 最 少 的 .“ 不 知道 你 在 说 什么 ?最短 路径 分 词法 的 
结果 是 "不 知道 "“ 你 在 "和 "说 什么 ”, 这 就 是 最 短路 径 分 词法 ,分 出 来 就 只 有 3 个 词 。 


16.3.2 基于 词 的 频 度 统计 的 分 词 方法 


基于 词 的 频 度 统计 的 分 词 方法 是 一 种 全 切 分 方法 ,在 讨论 这 个 方法 之 前 先 要 明白 什么 
叫 全 切 分 方法 。 全 切 分 要 求 获得 输入 序列 的 所 有 可 接受 的 切 分 形式 ,而 部 分 切 分 只 取得 一 
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种 或 几 种 可 接受 的 切 分 形式 ,由 于 部 分 切 分 忽略 了 可 能 的 其 他 切 分 形式 ,所 以 建立 在 部 分 切 
分 基础 上 的 分 词 方法 不 管 采 取 何 种 歧义 纠正 策略 ,都 可 能 会 遗漏 正确 的 切 分 ,造成 分 词 错 误 
或 失败 ; 而 建立 在 全 切 分 基础 上 的 分 词 方法 ,由 于 全 切 分 取得 了 所 有 可 能 的 切 分 形式 ,因而 
从 根本 上 避免 了 可 能 切 分 形式 的 遗漏 ,克服 了 部 分 切 分 方法 的 缺陷 。 

全 切 分 算法 能 取得 所 有 可 能 的 切 分 形式 , 它 的 句子 覆盖 率 和 分 词 覆 盖 率 均 为 100% ,但 
全 切 分 分 词 并 没有 在 文本 处 理 中 广泛 地 采用 ,原因 有 以 下 几 点 。 

(1) 全 切 分 算法 只 是 能 获得 正确 分 词 的 前 提 , 因 为 全 切 分 不 具有 歧义 检测 功能 ,最 终 分 
词 结果 的 正确 性 和 完全 性 依赖 于 独立 的 歧义 处 理 方法 ,如 果 评 测 有 误 , 也 会 造成 错误 的 
结果 。 

(2) 全 切 分 的 切 分 结果 个 数 随 句子 长 度 的 增长 呈 指 数 增长 ,一 方面 将 导致 庞大 的 无 用 
数据 充斥 于 存储 数据 库 ; 另 一 方面 , 当 句 长 达到 一 定 长 度 后 ,由 于 切 分 形式 过 多 ,造成 分 词 
效率 严重 下 降 。 

基于 词 的 频 度 统计 的 分 词 方法 不 依靠 词典 ,而 是 将 文章 中 任意 两 个 字 同 时 出 现 的 频率 
进行 统计 ,次 数 越 高 的 就 可 能 是 一 个 词 。 它 首先 切 分 出 与 词 表 匹配 的 所 有 可 能 的 词 ,运用 统 
计 语 言 模 型 和 决策 算法 决定 最 优 的 切 分 结果 。 它 的 优点 在 于 可 以 发 现 所 有 的 切 分 歧义 并 且 
容易 将 新 词 提取 出 来 。 从 形式 上 看 , 词 是 稳定 的 字 的 组 合 ,因此 在 上 下 文中 , 相 邻 的 字 同 时 
出 现 的 次 数 越 多 ,就 越 有 可 能 构成 一 个 词 。 因 此 字 与 字 相 邻 共 现 的 频率 或 概率 能 够 较 好 地 
反映 成 词 的 可 信 度 。 可 以 对 语 料 中 相 邻 共 现 的 各 个 字 的 组 合 的 频 度 进行 统计 ,计算 它们 的 
互信 息 : 





log POY) 
E POOPY) 


其 中 POX, Y) EWE XY 的 相 邻 共 现 概率 ,P(X) PODA E XY 在 语 料 中 出 现 的 
概率 。 互 信息 体现 了 汉字 之 间 结 合 关系 的 紧密 程度 。 在 紧密 程度 高 于 某 一 个 阀 值 时 , 便 认 
为 此 字 组 可 能 构成 了 一 个 词 。 实 际 应 用 的 统计 分 词 系统 都 要 使 用 一 部 基本 的 分 词 词典 进行 
串 匹 配 分 词 与 字符 串 匹 配 分 词 方法 不 同 的 是 ,统计 分 词 方法 分 出 来 的 词 都 是 带 有 概率 信息 
的 ,最 后 通过 在 所 有 可 能 的 切 分 结果 中 选 出 一 种 概率 最 大 的 分 词 结果 ,这 种 方法 具有 自动 消 
除 歧 义 的 优点 。 目 前 ,这 种 方法 是 分 词 的 主流 方法 。 


16.3.3 其 他 中 文 分 词 方法 


l. 基于 知识 理解 的 分 词 方法 

通常 的 分 词 系统 ,都 力图 在 分 词 阶段 消除 所 有 歧义 切 分 现象 。 而 有 些 系统 则 在 后 续 过 
程 中 来 处 理 歧 义 切 分 问题 ,其 分 词 过 程 只 是 整个 语言 理解 过 程 的 一 小 部 分 。 其 基本 思想 就 
是 在 分 词 的 同时 进行 句法 .语义 分 析 , 利 用 句法 信息 和 语义 信息 来 处 理 歧 义 现象 。 它 通常 包 
括 三 个 部 分 : 分 词 子 系统 ,句法 语义 子 系统 和 总 控 部 分 。 在 总 控 部 分 的 协调 下 ,分 词 子 系统 
可 以 获得 有 关 词 、 句 子 等 的 句法 和 语义 信息 来 对 分 词 歧 义 进 行 判 断 , 即 它 模拟 了 人 对 句子 的 
理解 过 程 。 这 种 分 词 方法 需要 使 用 大 量 的 语言 知识 和 信息 。 由 于 汉语 语言 知识 的 笼统 、 复 
杂 性 ,难以 将 各 种 语言 信息 组 织 成 机 器 可 直接 读 取 的 形式 ,目前 ,这 种 方法 是 分 词 方法 中 的 
主流 方法 。 

2. 并 行 分 词 方法 

并 行 分 词 方法 借助 于 一 个 含有 分 词 词 库 的 管道 进行 ,比较 匹配 过 程 是 分 步 进行 的 ,每 一 


M(X,Y) = 





步 可 以 对 进入 管道 中 的 词 同时 与 词 库 中 相应 的 词 进行 比较 ,由 于 同时 有 多 个 词 进行 比较 匹 
配 , 因 而 分 词 速度 可 以 大 幅度 提高 。 这 种 方法 涉及 多 级 内 码 理论 和 管道 的 词典 数据 结构 。 
具体 内 容 可 参考 文献 [1]。 

总 之 ,基于 字典 或 词 库 匹配 的 分 词 方 法 应 用 词典 匹配 、 汉 语词 法 或 其 他 汉语 语言 知识 进 
行 分 词 ,这 类 方法 简单 .分 词 效率 较 高 ,但 汉语 语言 现象 复杂 丰富 ,词典 的 完备 性 、 规 则 的 一 
致 性 等 问题 使 其 难以 适应 开放 的 大 规模 文本 的 分 词 处 理 。 基 于 词 频 度 统计 的 分 词 方法 基于 
字 和 词 的 统计 信息 ,如 把 相 邻 字 间 的 信息 、 词 频 及 相应 的 共 现 信息 等 应 用 于 分 词 , 由 于 这 些 
信息 是 通过 调查 真实 语 料 而 取得 的 ,因而 基于 统计 的 分 词 方法 具有 较 好 的 实用 性 ,而 基于 知 
识 理解 的 分 词 方法 试图 让 机 器 具有 人 类 的 理解 能 力 , 需 要 使 用 大 量 的 语言 知识 和 信息 。 由 
于 汉语 语言 知识 的 笼统 ,复杂 性 ,难以 将 各 种 语言 信息 组 织 成 机 器 可 直接 读 取 的 形式 。 因 此 
目前 基于 知识 的 分 词 系统 还 处 在 试验 阶段 。 对 中 文 分 词 技术 而 言 , 出 现 了 基于 各 种 编程 语 
言 开 发 的 分 词 软件 包 。 如 应 丁 解 牛 分 词 包 [2]、LingPipe[L3]、LibMMSeg[3]\IKAnalyzer[4]、 
PHPCWS[5] 以 及 KTDictSeg[6] 等 。 














16.4 PLDA 方法 


16.4.1 主题 模型 


定义 16.4: 主题 (Topic) 就 是 一 个 概念 或 方面 。 它 表现 为 一 系列 相关 的 词语 (word)， 
能 够 代表 某 个 主题 ,从 数学 角度 来 看 就 是 词汇 表 上 词语 的 条 件 概 率 分 布 。 

在 文本 挖掘 时 ,计算 文档 相似 性 是 非常 基础 的 操作 ,通常 对 文本 进行 分 词 、 构 建 向 量 空 
间 模 型 (Vector Space Model,VSM) ,通过 Jaccard 系数 或 者 余弦 相似 性 (cosine similarity) 
计算 距离 或 者 相似 度 。 上 述 方法 是 基于 corpus 库 的 思路 , 即 仅仅 考虑 词组 并 未 考虑 文本 的 
语义 信息 。 针 对 下 面 情况 ,基于 corpus 库 将 很 难处 理 。 

“如 果 时 间 回 到 2006 年 ,马云 和 杨 致远 的 手 还 会 握 在 一 起 吗 ?” 

“阿里 巴巴 集团 和 雅虎 就 股权 回 购 一 事 签署 了 最 终 协议 。” 

如 果 采 用 基于 corpus 库 的 Jaccard 距离 等 算法 ,那么 这 两 个 文本 的 完全 不 相关 ,但 是 事 
实 上 ,“ 马 云 " 和 “阿里 巴巴 集团 ”,“ 杨 致远 "和 “雅虎 "有 着 密切 的 联系 ,从 语义 上 看 ,两 者 都 和 
“阿里 巴巴 ”有 关系 。 再 例如 : 

“富士 苹果 真 好 。” 

“苹果 四 代 真 好 。” 

从 corpus 库 上 来 看 ,两 者 非常 相似 ,但 是 事实 上 ,这 两 个 句子 从 语义 上 来 讲 , 没 有 任何 
关系 ,一 个 是 “水 果 ”, 而 另 一 个 是 手机”。 基 于 以 上 例子 ,可 以 通过 “主题 "去 解决 这 一 问题 。 
主题 就 像 一 个 桶 , 装 了 出 现 频 率 很 高 的 词语 ,这 些 词 语 和 主题 有 很 强 的 相关 性 ,或 者 说 这 些 
词语 定义 了 这 个 主题 。 例 如 以 “阿里 巴巴 ”为 主题 ,那么 马云 "“ 电 子 商 务 ” 等 词 会 以 很 高 的 
频率 出 现 ,而 如 果 涉 及 以 “腾讯 ”为 主题 ,那么 “马化腾 ”“ 微 信 ”“QQ” 会 以 较 高 的 频率 出 
现 ; 同时 ,一 个 词语 可 能 来 自 于 不 同 的 桶 ,例如 “电子 商务 ”可 以 来 自 * 阿 里 巴巴 "主题 ,也 可 
以 来 自 “ 京 东 ” 主 题 ,所 以 一 段 文字 往往 包含 多 个 主题 ,一 个 主题 也 可 以 对 应 多 段 文字 。 

定义 16.5: 主题 模型 (Topic Model) 就 是 通过 大 量 已 知 数据 训练 出 文字 中 所 隐 含 主题 
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的 一 种 建 模 方法 。 

令 了 表示 文档 ,W 表示 词语 ,Z 表示 文档 中 隐 含 的 主题 ; PC(W1D) 表 示 词 语 在 给 定 文档 
中 出 现 的 概率 ,P(W1Z) 表 示 给 定 主题 下 文档 出 现 的 概率 ,P(Z|D) 表 示 给 定 文档 中 主题 出 
现 的 概率 ; WA: 





P(W|D) = MPOV | Z)P(Z| D) 
Zz 
主题 模型 的 一 般 工作 原理 是 ,通过 对 大 量 已 知 文档 进行 分 词 , 得 到 词汇 列表 ,这 样 就 可 


Pee E oe re 词语 在 文档 中 出 现 的 次 数 
以 通过 词语 的 集合 去 表示 每 一 个 文档 ,此 时 可 令 PW | D) = BOE y 


后 利用 公式 POW | D) = DPW | DPZ | DO) 并 通过 某 种 训练 方法 去 推导 POW |Z) 和 
zZ 


P(Z| D) Wi. 

主题 模型 的 训练 方法 有 很 多 ,目前 主要 训练 方法 有 PLSA (Probabilistic Latent Semantic 
Analysis) fll LDA(Latent Dirichlet Allocation), PLSA 主要 采用 EM( 期 望 最 大 化 ) 算 法 ， 
通过 不 断 进行 EE 过 程 ( 求 期 望 ) 与 M 过 程 ( 最 大 化 ) 这 两 种 迭代 过 程 去 生成 模型 ,同时 EM 算 
法 保证 上 述 和 迭代 的 收敛 ; LDA 通过 Gibbs sampling 方法 去 实现 。 主 题 模型 具有 如 下 特点 。 

(1) 它 可 以 衡量 文档 之 间 的 语义 相似 性 。 对 于 一 篇 文档 , 求 出 来 的 主题 分 布 可 以 看 作 
是 对 它 的 一 个 抽象 表示 。 对 于 概率 分 布 ,可 以 通过 一 些 距离 公式 来 计算 出 两 篇 文档 的 语义 
距离 ,从 而 得 到 它们 之 间 的 相似 度 。 

(2) 它 可 以 解决 多 义 词 的 问题 。 上 述 例 子 中 , “苹果 ”可 能 是 水 果 , 也 可 能 指 苹果 公司 。 
通过 我 们 求 出 来 的 分 布 ,就 可 以 知道 “苹果 ”都 属于 哪些 主题 ,就 可 以 通过 主题 的 匹配 来 计算 
它 与 其 他 文字 之 间 的 相似 度 。 

(3) 它 可 以 排除 文档 中 噪音 的 影响 。 一 般 来 说 ,文档 中 的 噪音 往往 处 于 次 要 主题 中 ,可 
以 把 它们 忽略 掉 , 只 保持 文档 中 最 主要 的 主题 。 

(4) 它 是 无 监督 的 ,完全 自动 化 的 。 只 需要 提供 训练 文档 , 它 就 可 以 自动 训练 出 各 种 概 
率 ,无需 任何 人 工 标注 过 程 。 

(5) 它 是 跟 语言 无 关 的。 任何 语言 只 要 能 够 对 它 进 行 分 词 , 就 可 以 进行 训练 ,得 到 它 的 
主题 分 布 。 


16.4.2 PLDA 方法 原理 


1. PLDA 模型 的 产生 

i PLDA 模型 中 总 共 定义 了 天 个 主题 ,V 个 词语 。 任 何 一 篇 文档 是 由 天 个 主题 中 多 
个 主题 混合 而 成 , 换 句 话说 ,每 篇 文档 都 是 主题 上 的 一 个 概率 分 布 doc(topic)。 每 个 主题 都 
是 词语 上 的 一 个 概率 分 布 topice(word) ,下 标 & 表 示 为 第 &A 个 主题 , 换 句 话说 ,文档 中 的 每 
个 词语 都 是 由 某 一 个 的 主题 随机 生成 的 。 因 此 一 篇 文档 的 生成 过 程 如 下 。 

(1) 依据 doc(topic) 概 率 分 布 ,生成 一 个 主题 。 

(2) 依据 该 主题 的 概率 分 布 topic(word) .生成 了 一 个 word。 

(3) 回 到 第 (1) 步 ,重复 N 次 , 则 生成 了 这 篇 文章 的 N 个 word. 

因此 ,doc(topic) 是 总 和 为 N 的 KK & li 4p ffi topic, word) ERMAN 的 V 多 项 分 布 。 
如 果 选 择 多 项 分 布 的 先 验 分 布 为 Dirichlet 分 布 ,该 模型 则 成 了 PLDA 模型 。 


























2. PLDA 模型 后 验 分 布 概率 

假设 主题 的 先 验 概率 分 布 为 Dirichlet 分 布 : Dir(O |a) (0 € R* 表示 K 个 主题 构成 的 
随机 变量 ,KE R^ 为 参数 ) 则 基于 第 m 篇 文档 的 主题 的 观察 数据 遍 *E R*( 该 向 量 的 第 i 个 
分 量 是 第 i 个 主题 在 文档 中 所 对 应 的 词语 出 现 的 个 数 ), 则 第 m 篇 文档 主题 的 后 验 分 布 概率 


为 ， Dir (G 1 六 十 六 ,同时 主题 的 生成 概率 为 和 Ca 二 全) 
Qa 


假设 词语 的 先 验 概率 分 布 为 Dirichlet 分 布 : Dir(G |B) (GER 表示 V 个 词语 构成 的 随机 
变量 ,BER" 为 参数 ) , 则 基于 第 个 主题 的 词语 观察 数据 克 .E RY( 对 文档 中 逐个 词语 进行 计 
WO , 则 第 & 个 主题 的 后 验 分 布 概率 为 DiG nk +P mm RN EE. 

由 于 每 篇 文档 生成 的 主题 的 过 程 相互 独立 ,每 个 主题 生成 词语 的 过 程 相互 独立 ,而 且 生 
成 主题 和 生成 词语 的 过 程 相互 独立 ,因此 M 篇 文档 的 主题 和 词语 的 联合 生成 概率 为 : 
I AGR +B) Tp AC +2) 
1 A) m=i ACD 

其 中 ,ER* 表 示 K 个 主题 构成 的 随机 变量 ,过 E RY 表示 V 个 词语 构成 的 随机 变量 。 

3. 随机 变量 和 观测 数据 的 确定 

根据 文档 生成 的 过 程 可 知 : 每 个 词语 对 应 一 个 主题 ,因此 可 选 (word,topic) 作为 
Markov 链 的 随机 变量 。 式 (16-1) 就 是 该 随机 变量 的 概率 分 布 。 因 此 可 以 采用 Gibbs 
Sampling 来 获得 该 随机 变量 的 稳 态 概率 分 布 。 根 据 前 面 的 推导 式 (16-1) 为 后 验 概率 ,其 
mn, Minke ERM BE 

nm, 是 对 第 m 篇 文档 各 个 单词 的 主题 按 1-K 编号 进行 统计 计数 而 得 到 的 观测 数据 ， 
TARER JI amO n «nm Q2, «m CO] P8 B t HEC EOD CN K) I 3E 4) N 
为 第 m 篇 文档 的 词语 总 数 ,K 为 主题 总 数 。 

nk, 是 对 第 个 主题 各 个 词语 按 单词 的 编号 1-V 进行 统计 计数 而 得 到 的 观测 数据 ,可 
DRE Jj nk Da ,RC(2)4，… ,nkCV34], 因 此 该 计数 的 概率 为 (N,V) 的 多 项 分 布 ,N 为 第 人 
个 主题 包括 的 单词 总 数 ,V 为 单词 词汇 总 数 。 

4. 状态 转移 概率 的 确定 

由 于 文档 的 主题 和 词语 的 先 验 分 布 为 Dirichlet 分 布 ,观测 数据 ZV。 和 芍 。 为 
Multinomial 4} f . — #9 Dirichlet-Multinomial 共 恩 ,这 样 某 个 词语 的 主题 转移 概率 就 可 
以 利用 其 他 词语 的 主题 观测 数据 来 得 到 后 验 概率 了 。 具 体 计算 过 程 如 下 。 

计算 词语 1 的 主题 转移 概率 ,7 六 。 RRE m 篇 文档 中 去 掉 词语 ! 对 应 的 主题 观测 数 
据 。 芍 ,表示 去 掉 词 语 4 后 第 k 个 主题 的 观测 数据 。 因 此 基于 去 掉 词语 1 的 其 他 词语 观测 数 


据 ,每 篇 文档 主题 的 后 验 分 布 概率 为 Dir(5 I, s D ,其 估计 值 为 me ae 每 


> Gm OD, + ae) 


k-i 


nk (1) as + Be 
v 
M GEO, +B) 


t=1 


pS. | ap) = (16-1) 
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对 于 词语 上 转移 到 下 一 个 主题 & 的 概率 为 : 


nm(k)m ak MR (tee +h 
K Vv 
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16.5 Word2Vec 基本 原理 


自然 语言 处 理 (Natural Language Processing,NLP) 相 关 任 务 中 ,要 将 自然 语言 交 给 机 
器 学 习 中 的 算法 来 处 理 ,通常 需要 首先 将 语言 数学 化 ,而 向 量 是 人 把 自然 界 的 东西 抽象 出 来 
交 给 机 器 处 理 的 有 效 形式 ,是 人 对 机 器 输入 的 主要 方式 之 一 。 


16.5.1 词 向 量 的 表示 方式 


词 向 量 就 是 用 来 将 语言 中 的 词 进行 数学 化 的 一 种 方式 ,顾名思义 , 词 向 量 就 是 把 一 个 词 
表示 成 一 个 向 量 ,主要 有 以 下 两 种 表示 方式 ""]。 

1. One-Hot Representation 

该 方法 是 用 一 个 很 长 的 向 量 来 表示 一 个 词 , 向 量 的 长 度 为 词典 的 大 小 ,向 量 的 分 量 只 有 
一 个 1, 其 他 全 为 0,1 的 位 置 对 应 该 词 在 词典 中 的 位 置 。 例 如 ,“ 话 简 ” 和 “电视 ”可 能 会 表示 
如 下 。 

。“ 话 简 ” 表 示 为 [L0001000000…] 

。“ 电 视 ” 表 示 为 [0000000100…] 

One-Hot Representation 方式 非常 适合 用 稀疏 矩阵 表示 ,但 这 种 方法 有 以 下 两 个 缺点 。 

COD 容易 受 维 数 灾难 的 困扰 。 

(2) 不 能 很 好 地 刻画 词 与 词 之 间 的 相似 性 。 

2. Distributed Representation 

这 种 方法 最 早 是 Hinton 于 1986 年 提出 的 ,可 以 克服 One-Hot Representation 的 缺点 。 
其 基本 想法 是 直接 用 一 个 普通 的 向 量 表示 一 个 词 ,这 种 向 量 一 般 是 这 种 样子 : [0. 792. 
—0. 177, —0.107. 0.109, 一 0.542,…], 也 就 是 普通 的 向 量 表示 形式 。 一 个 词 如 何 表 示 成 
如 上 所 示 的 向 量 形式 ,是 需要 经 过 一 番 训 练 的 ,训练 方法 较 多 ,Word2Vec 是 其 中 一 种 。 另 
外 ,每 个 词 在 不 同 的 语料库 和 不 同 的 训练 方法 下 ,得 到 的 词 向 量 可 能 是 不 一 样 的 。 用 这 种 方 
法 训练 的 词 向 量 维 数 一 般 不 高 .所 以 出 现 维 数 灾难 的 机 会 比 One-Hot Representation 方法 
要 小 得 多 。 

用 效果 较 好 的 训练 算法 得 到 的 词 向 量 一 般 是 有 空间 上 的 意义 的 ,即将 所 有 这 些 向 量 放 
在 一 起 形成 一 个 词 向 量 空间 ,而 每 一 向 量 则 为 该 空间 中 的 一 个 点 ,在 这 个 空间 上 的 词 向 量 之 
间 的 距离 度量 也 可 以 表示 对 应 的 两 个 词 之 间 的 “距离 ”。 所 谓 两 个 词 之 间 的 "距离 ”, 就 是 这 
两 个 词 之 间 的 语法 或 语义 之 间 的 相似 性 ,可 以 采用 欧 几 里 得 距离 或 余弦 相似 度 等 方法 计算 
两 个 词 向 量 之 间 的 距离 。 


16.5.2 统计 语言 模型 


1. 统计 语言 模型 
统计 语言 模型 (Statistical Language Model. SLM) 是 NLP 的 基础 , 它 被 广泛 地 应 用 于 


语音 识别 .机 器 翻译 .分词 . 词 性 标注 和 信息 检索 等 任务 。 简 单 来 说 ,SLM 是 用 来 计算 一 个 
句子 概率 的 概率 模型 , 它 通 常 基于 一 个 语料库 来 构建 和 。 什 么 叫做 一 个 句子 的 概率 呢 ? E 
设 W=wf: =w, w ewr) RRA TAi ww wr 按 顺 序 构成 的 一 个 句子 , 则 
wr wee wr AURA REE PCW) = P Ge) =P (wi. wee ,wr) 就 是 这 个 句子 的 概率 。 利 
用 贝 叶 斯 公式 ,P(w?f) 也 可 以 被 链 式 地 分 解 为 PG) — PGoD * Pw lwi) * PGoi | wi) 
P(wr|wr1 1!)。 其 中 的 (条 件 ) 概 率 Pw). PG | wi)» P Ges |i), PCwr | wt) RIE 
言 模型 的 参数 。 如 果 这 些 参数 都 已 经 得 到 ,那么 给 定 一 个 句子 wf 就 可 以 计算 得 到 其 对 应 
f PDT. 

下 面 考 虑 一 下 模型 参数 的 个 数 问题 。 刚 才 考 虑 的 是 一 个 给 定 长 度 为 工 的 句子 ,需要 计 
算 工 个 参数 。 设 语料库 对 应 词典 D 的 大 小 ( 即 词汇 量 ) 为 N, 则 如 果 考 虑 长 度 为 工 的 任意 
句子 ,理论 上 就 有 NT 种 可 能 ,而 每 种 可 能 都 要 计算 本 个 参数 ,总 共 就 需要 计算 TNT 个 参数 
(这 是 大 概 的 估算 ,没有 考虑 重复 参数 的 情况 ) 。 这 个 数量 级 是 很 大 的 ,而 且 由 于 在 计算 过 程 
中 需要 保存 ,其 内 存 开销 也 很 大 。 计 算 这 些 参数 常见 的 方法 有 N-Gram 模型 .决策 树 、 最 大 
焙 模 型 .最 大 业 马 尔 科 夫 模型 ,条件 随 机 场 及 神经 网 络 等 。 下 面 讨论 一 下 N-Gram 模型 。 





2. N-Gram 模型 
考虑 PCws [wr1) (这 1) 的 近似 计算 。 利 用 贝 叶 斯 公式 有 : 
E 
PG | wh!) = POS (16-2) 
根据 大 数 定理 , 当 语 料 库 足 够 大 时 ,P(rwr wt!) 可 近似 地 表示 为 : 
& 
Pay | wht) a; OuntGu (16-3) 


count (wi ! ) 
其 中 count(wf) 和 count (wi!) 分 别 表示 词 串 wi 和 wh? 在 语 料 中 出 现 的 次 数 。 由 
式 (16-2) 可 以 看 出 ,一 个 词 出 现 的 概率 与 它 前 面 的 所 有 词 都 相关 。 如 果 假 定 一 个 词 出 现 的 概 
率 只 与 它 前 面 固定 数目 的 词 相关 呢 ?” 这 就 是 N-Gram 模型 的 基本 思想 。N-Gram 模型 做 了 一 
个 n 一 1 阶 的 Markov 假设 ,认为 一 个 词 出 现 的 概率 就 只 于 它 前 面 的 n 一 1 个 词 相关 , 即 : 


P Go, | wk?) œ Pew, | wEla) 





因此 式 (16-3) 变 成 了 


count (wn ) 


Piw | wh!) ~ 
e | wi count (w l ) 


(16-4) 


Un=2 为 例 , 有 : 
count(w sw) 
count (w ) 


通过 这 种 简化 处 理 , 不 仅 使 得 单个 参数 的 统计 变 得 更 加 容易 (统计 时 需要 匹配 的 词 串 更 
短 ) ,也 使 得 参数 的 总 数 变 少 了 。 那 么 N-Gram 模型 中 的 参数 取 多 大 合适 呢 ? 一 般 来 说 ,n 
的 选取 需要 同时 考虑 计算 复杂 度 和 模型 效果 两 个 因素 ,具体 取 值 如 表 16-1 所 示 。 
表 16-1 N-Gram 模型 参数 数量 与 n 的 关系 表 
n 模型 参数 数量 n 模型 参数 数量 


1(unigram) 2 * 10° 3(trigram) 8*105 
2(bigram) 4 * 10!" 4(4-gram) 16 « 10” 


PGo, | wht) = 
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在 计算 复杂 度 方面 , 表 16-1 给 出 了 N-Gram 模型 中 模型 参数 数量 随 着 的 逐渐 增 大 而 
变化 的 情况 。 其 中 假定 词典 大 小 N=200 000( 汉 语 的 词汇 量 大 致 是 这 个 量 级 )。 事 实 上 , 模 
型 参数 的 量 级 是 N 的 指数 函数 (OCN”")) ,显然 不 能 取 值 太 大 ,实际 应 用 中 最 多 是 采用 二 
3 的 三 元 模型 。 在 模型 效果 方面 ,理论 上 是 n 越 大 效果 越 好 。 但 当 n 大 到 一 定 程度 时 ,模型 
效果 的 提升 幅度 会 变 小 。 例 如 , 当 n 从 1 到 2, 再 从 2 到 3 时 ,模型 的 效果 上 升 显著 ,而 从 3 
到 4 时 ,效果 的 提升 就 不 显著 了 四。 实际 上 ,这 里 涉及 一 个 可 靠 性 和 可 区 别 性 的 问题 ,参数 
越 多 ,可 区 别 性 越 好 ,但 同时 单个 参数 的 实例 变 少 ,从 而 降低 了 可 靠 性 ,因此 需要 在 可 靠 性 和 
可 区 别 性 之 间 进 行 折 中 。 另 外 , N-Gram 模型 中 还 有 一 个 叫做 平滑 化 的 重要 环节 ,如 
式 (16-4) 所 示 , 考 虑 如 下 问题 : 

(OD # count(wih-,+1) 二 0, 能 否认 为 POo | wt?) =0? 

(2) d$ count(wi-,41) 7 count uf 75) ,能 否认 为 PCwlwi 121? 

很 显然 上 面 两 个 问题 的 答案 都 是 否定 的 。 但 这 个 问题 无 法 回避 ,不 管 语料库 有 多 大 。 
平滑 技术 就 是 用 来 处 理 这 个 问题 的 ,这 里 不 展开 讨论 。 总 的 来 说 ,N-Gram 模型 的 主要 工作 
就 是 在 语 料 中 统计 各 种 词 串 出 现 的 次 数 以 及 平滑 处 理 , 概 率 值 计 算 好 之 后 就 存储 起 来 ,下 次 
需要 计算 一 个 句子 的 概率 时 ,只 需 找 到 相关 的 概率 参数 ,将 它们 连 乘 起 来 即 可 。 

如 何 利用 模型 进行 预测 呢 ? 一 种 通用 的 思路 就 是 对 所 考虑 的 问题 建 模 后 先 为 其 构造 一 
个 目标 函数 ,然后 对 这 个 目标 函数 进行 优化 ,从 而 求 得 一 组 最 优 的 参数 ,最 后 利用 这 组 最 优 
参数 对 应 的 模型 进行 预测 。 对 于 统计 语言 模型 而 言 , 利 用 最 大 似 然 法 可 把 目标 函数 设 定 为 ， 

[I P Ge | Context(w)) 


wec 

这 里 的 C 表示 语 料 (corpus) ,Context(w) 表 示 词 ww 的 上 下 文 (context), 即 w 周围 的 词 

的 集合 。 当 Context(w) 为 空 时 ,就 取 P(w|Context(w)) = P Cw) ,特别 的 ,对 于 N-Gram 模 

型 ,就 有 Context(twi) 二 wi=1+1。 注 意 语 料 C 和 词典 的 区 别 : 词典 D 是 从 语 料 C 中 抽取 

出 来 的 ,不 存在 重复 的 词 ,而 语 料 C 是 指 所 有 的 文本 内 容 ,包括 重复 的 词 。 在 实际 应 用 中 常 
采用 最 大 对 数 似 然 法 , 即 把 目标 函数 设 定 为 : 

{= DlogP(w | Context(w)) (16-5) 


wec 

然后 对 式 (16-5) 进 行 最 大 化 。 从 式 (16-5) 可 以 看 出 ,概率 P(z|Context(ro)) 已 经 被 视 

为 w 和 Context (w) If] PG ZI. BD ; 
P(w | Context(w)) = F(w.Context(w) .0) 

其 中 0 为 待定 参数 集 。 因 此 一 旦 公式 (16-5) 进 行 优化 得 到 最 优 参数 集 0 后 ,F 函数 也 
就 被 唯一 确定 了 ,以 后 任何 概率 P Go| Context(w) ) 就 可 以 通过 函数 FF(Cz,Context(ro) .0* ) 
来 计算 。 与 N-Gram 模型 相 比 ,该 方法 不 需要 事先 计算 并 保存 算法 的 概率 值 ,而 是 通过 直接 
计算 来 获得 , 且 通 过 选取 合适 的 模型 可 以 使 得 0 中 参数 的 个 数 远 小 于 N-Gram 模型 中 参数 
的 个 数 。 很 显然 ,现在 剩 下 的 关键 问题 就 是 构造 函数 下 了 。 下 面 介绍 一 种 通过 神经 网 络 来 
构造 下 函数 的 方法 ,这 种 方法 也 是 接 下 来 要 介绍 的 Word2Vec 中 算法 框架 的 基础 。 

3. 神经 概率 语言 模型 

这 里 以 文献 [9] 中 提 到 的 模型 为 例 ,说 明神 经 概率 语言 模型 的 基本 原理 。 图 16-1 给 出 
了 神经 网 络 的 结构 示意 图 , 它 包 含 四 层 , 即 输入 层 、 投 影 层 、 隐 藏 层 和 输出 层 。 其 中 WU 分 
别 为 投影 层 与 隐藏 层 以 及 隐藏 层 和 输出 层 之 间 的 权 值 矩阵 ,p、g 分 别 为 隐藏 层 和 输出 层 上 
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图 16-1 神经 网 络 结构 示意 图 


对 于 语 料 C 中 的 任意 一 个 词 w ,将 Context(w) 取 为 其 前 面 的 n 一 1 个 词 ( 与 N-Gram 模 
型 类 似 ) ,二 元 组 (Context(w) ,tw) 就 是 一 个 训练 样本 了 , 接 下 来 讨论 样本 (Context(w),w) 
经 过 图 16-1 所 示 的 神经 网 络 是 如 何 计算 的 。 需 要 说 明 的 是 ,一 旦 语 料 C 和 词 向 量 长 度 m 
给 定 后 ,投影 层 和 输出 层 的 规模 就 确定 了 ,前 者 为 ~“(n 一 1)m”, 后 者 为 “N==1D1”, 即 语 料 C 
的 词汇 量 大 小 ,而 隐藏 层 的 规模 nm。 由 用 户 指定 ,是 参数 可 调 的 。 

为 什么 投影 层 的 规模 是 (n 一 1)m? 因为 输入 层 包 含 Context(w) 中 一 1 个 词 的 词 向 
量 , 而 投影 层 的 向 量 zs 构造 过 程 为 : 将 输入 层 的 n 一 1 个 词 向 量 按照 顺序 首尾 相连 地 拼 成 
一 个 长 向 量 ,其 长 度 即 为 (n 一 1)m。 根 据 向 量 ze, 可 进行 如 下 计算 。 

全 = tanh(Wz, + p) 





(16-6) 
yw = Uzuv +q 


其 中 tanh 为 双 曲 正切 函数 ,用 来 作为 隐藏 层 的 激活 函数 。 经 过 式 (16-6) 的 计算 ,得 到 
的 yu — (Yui «Yu ott + Yew)” 只 是 一 个 长 度 为 N 的 向 量 , 其 分 量 不 能 表示 概率 。 如 果 想 要 
yu 的 分 量 ywil 志 iN RRE FLH Context (w) HJ IS] f£ F — Ar isla Jy is] Jh D 中 的 第 i 个 
词 的 概率 , 则 还 需要 做 Softmax 归 一 化 , 即 : 
erwi, 


P(w | Context(w)) = ~~ (16-7) 
Mee 

Jp 表示 词 w 在 词典 中 的 索引 。 式 (16-7) 给 出 了 概率 P Go| Context w)) fff] ea 
数 表示 , 即 根据 上 一 小 节 提 到 的 FO Context Cu) ,0) 函 数 ,那么 其 中 待 确 定 的 参数 0 包括 
两 部 分 : 

COD HAE vlw) ER”, wE D 以 及 填充 向 量 。 

(2) 神经 网 络 参数 : WER, p€ R^» U€ RV ,q€ RN, 

上 述 参数 均 通过 训练 算法 得 到 。 需 要 说 明 的 是 ,在 机 器 学 习 算 法 中 输入 都 是 已 知 的 ,而 
在 图 16-1 所 示 的 神经 概率 语言 模型 中 ,输入 v(w) 也 需要 通过 训练 才能 得 到 。 在 图 16-1 所 
示 的 神经 网 络 中 ,投影 层 、 隐 藏 层 和 输出 层 的 规模 分 别 为 (n 一 1)m、ns 和 N。 整 个 模型 的 大 
部 分 计算 集中 在 隐藏 层 和 输出 层 之 间 的 矩阵 向 量 计算 以 及 输出 层 上 的 softmax 归 一 化 运 
算 , 很 多 工作 都 是 对 这 一 部 分 内 容 进行 优化 ,包括 Word2Vec 的 工作 。 与 N-Gram 模型 相 
比 ,神经 概率 语言 模型 具有 如 下 优势 。 
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COD 词语 之 间 的 相似 性 可 以 通过 词 向 量 来 体现 。 
(2) 基于 词 向 量 的 模型 自 带 平滑 功能 ,不 需要 额外 的 处 理 。 


16.5.3 ÆR Zi 


1. ERW 

为 了 介绍 霍 夫 曼 编码 ,需要 介绍 霍 夫 曼 树 等 基本 概念 。 树 是 一 种 重要 的 非 线 性 数据 结 
构 , 它 是 数据 元 素 ( 树 结 点 ) 按 照 分 支 关系 组 织 起 来 的 结构 。 若 干 棵 互 不 相交 的 树 所 构成 的 
集合 称 为 森林 。 下 面 先 给 出 几 个 常用 概念 。 

1) 路 径 和 路 径 长 度 

在 一 棵 树 中 ,从 一 个 结 点 往 下 可 以 到 达 的 孩子 或 孙子 结 点 之 间 的 通路 称 为 路 径 。 通 路 
中 分 支 的 数目 称 为 路 径 长 度 。 若 规定 根 结 点 的 层 号 为 1, 则 从 根 结 点 到 第 工 层 结 点 的 路 径 
长 度 为 L 一 1。 

2) 结 点 的 权 和 带 权 路 径 长 度 

若 为 树 中 结 点 赋予 一 个 具有 某 种 含义 的 非 负 数值 , 则 这 个 数值 称 为 该 结 点 的 权 。 结 点 
的 带 权 路 径 长 度 是 指 , 从 根 结 点 到 该 结 点 之 间 的 路 径 长 度 与 该 结 点 的 权 的 乘积 。 

3) 树 的 带 权 路 径 长 度 

树 的 带 权 路 径 长 度 规定 为 所 有 叶子 结 点 的 带 权 路 径 长 度 之 和 。 

二 叉 树 是 每 个 结 点 最 多 有 两 个 子 树 的 有 序 树 ,两 个 子 树 通常 被 称 为 “ 左 子 树 ”和 * 右 子 
树 ”, 所 谓 “ 有 序 ” 是 指 两 个 子 树 有 左右 之 分 ,顺序 不 可 颠倒 。 给 定 n 个 权 值 作为 n 个 叶子 结 
点 ,构造 一 棵 二 叉 树 , 若 它 的 带 权 路 径 长 度 达到 最 小 , 则 称 之 为 最 优 二 叉 树 ,也 叫做 哈 夫 曼 
(Huffman) BE, £x 3E n 4 BUE (wi ,ws，…,rw,) 作 为 二 叉 树 的 个 叶子 结 点 ,可 以 通过 如 下 
步骤 构造 一 棵 哈 夫 曼 树 。 

(1) 将 {wrtwwz，… ,ws) 看 做 是 有 nn 棵 树 的 森林 , 即 每 棵 树 仅 有 一 个 结 点 。 

(2) 在 森林 中 选 出 两 个 根 结 点 的 权 值 最 小 的 树 合并 ,作为 一 棵 新 树 的 左 、 右 子 树 , 且 新 
树 的 根 结 点 全 职 为 其 左 、 右 子 树 根 结 点 权 值 之 和 。 

(3) 从 森林 中 删除 所 选取 的 两 棵 树 , 并 将 新 树 加 入 森林 。 

(4) 重复 步骤 (2) 和 (3), 直 到 森林 中 只 剩 一 棵 树 位 置 ,该 树 即 为 所 求 的 哈 夫 曼 树 。 

【 例 16.2】 假设 从 新 浪 微 博 中 抓 取 的 若干 微 博 中 ,“ 我 “喜欢 ”“ 观 看 ”“ 巴 西 "“ 足 
球 ”“ 世 界 杯 ” 这 六 个 词 出 现 的 次 数 分 别 为 15、8.6、5、3、1。 请 以 这 6 个 词 为 叶子 结 点 ,以 相 
应 词 频 为 权 值 ,构造 一 棵 哈 夫 曼 树 。 

解 : 构造 过 程 如 图 16-2 所 示 。 

2. 霍 夫 曼 编码 

在 数据 通信 中 ,需要 将 传送 的 文字 转换 成 二 进 制 的 字符 串 , 用 0、1 码 的 不 同 排列 来 表示 
字符 。 例 如 ,假设 要 传送 报 文 AFTER DATA EAR ARE ART AREA”, 它 包含 字符 集 为 
“A,E,R.,T,F,D”, 这 些 字母 各 自 出 现 的 次 数 为 8.4、5、3、1、1, 现 在 要 求 为 这 些 字母 设计 
编码 。 

最 简单 的 区 分 上 述 6 种 字母 的 二 进 制 编码 方法 即 为 等 长 编码 ,也 就 是 为 每 个 字母 分 配 
一 个 二 进 制 序列 。 如 可 以 用 000、001、010、011、100、101 对 “A,E,R,T,F,D” 进 行 编码 。 显 
然 这 种 编码 的 长 度 取 决 于 报 文中 不 同 字符 的 个 数 .字符 个 数 越 多 ,编码 长 度 越 大 。 但 在 报 文 
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图 16-2 哈 夫 曼 树 构造 过 程 


传送 过 程 中 总 是 希望 总 长 度 越 短 越 好 。 另 外 ,在 实际 应 用 中 ,每 个 字符 穿线 的 频 度 是 不 同 
的 ,在 设计 编码 的 时 候 总 是 希望 让 使 用 频率 高 的 编码 短 一 些 , 以 优化 整个 报 文 编码 长 度 。 

为 使 不 等 长 编码 为 前 级 编码 ( 即 要 求 一 个 字符 的 编码 不 能 是 另 一 个 字符 编码 的 前 级 )， 
可 以 用 字符 集中 的 每 个 字符 作为 叶子 结 点 生成 一 棵 编码 二 叉 树 ,为 了 获得 传送 报 文 的 最 短 
长 度 , 可 将 每 个 字符 的 出 现 频率 作为 字符 结 点 的 权 值 赋予 该 结 点 。 显 然 ,使 用 频率 越 小 的 权 
值 越 小 , 权 值 越 小 叶子 就 越 靠 下 。 于 是 就 实现 了 使 用 频率 小 的 编码 长 ,使 用 频率 高 的 编码 
短 , 这 样 就 保证 了 此 树 的 最 小 带 权 路 径 长 度 ,效果 上 就 是 传送 报 文 的 最 短路 径 。 因 此 求 传 送 
报 文 最 短路 径 问 题 转化 为 求 由 字符 集中 的 所 有 字符 作为 叶子 结 点 ,由 字符 出 现 频 率 作为 其 
权 值 所 生成 的 哈 夫 曼 树 的 问题 。 利 用 哈 夫 曼 树 设计 的 二 进 制 前 组 编码 称 为 哈 夫 曼 编 码 , 它 
既 能 满足 前 级 编码 的 条 件 , 又 能 保证 报 文 编码 总 长 最 短 。 

16.5. 4 节 将 介绍 的 Word2Vec 工具 中 也 将 用 到 哈 夫 曼 编码 , 它 把 训练 语 料 中 的 词 当成 
叶子 结 点 ,其 在 语 料 中 出 现 的 次 数 当做 权 值 , 通 过 构造 相应 的 哈 夫 曼 树 来 对 每 一 个 词 进行 哈 
AS 

[5] 16.31. 对 于 例 16.1 rp 6 个 词 的 哈 夫 曼 编码 ,约定 ( 词 频 较 大 者 ) 左 孩子 结 点 编码 
为 1.( 词 频 较 小 者 ) 右 孩子 编码 为 0。 这 样 ,“ 我 “喜欢 ”“ 观 看 ”“ 巴 西 "“ 足 球 ”“ 世 界 杯 ” 
这 6 个 词 的 哈 夫 曼 编码 分 别 为 0.111、110、101、1001 和 1000。 编 码 过 程 如 图 16-3 Bras. 


16.5.4 Word2Vec 原理 简介 


解释 完 16.5. 1 节 至 16. 5. 3 节 的 基本 概念 之 后 ,我 们 来 解释 一 下 Word2Vec 的 基本 原 
理 。Word2Vec 是 Google 在 2013 年 年 中 开源 的 一 款 将 词 表征 为 实数 值 向 量 的 高 效 工 具 ， 
其 利用 深度 学 习 的 思想 ,可 以 通过 训练 ,把 对 文本 内 容 的 处 理 简化 为 K 维 向 量 空间 中 的 向 
量 运算 ,而 向 量 空间 上 的 相似 度 可 以 用 来 表示 文本 语义 上 的 相似 度 。Word2Vec 输出 的 词 
向 量 可 以 被 用 来 做 很 多 NLP 相关 的 工作 ,例如 聚 类 、 找 同义词 .词性 分 析 等 等 。 如 果 换 个 思 
路 , 把 词 当 作 特 征 , 那 么 Word2Vec 就 可 以 把 特征 映射 到 K 维 向 量 空间 ,可 以 为 文本 数据 
寻求 更 加 深层 次 的 特征 表示 。 
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图 16-3 "X Ba CER 


Word2Vec 使 用 的 是 Distributed representation [fj i] i) Ht 3€ ax 7; 3X. Distributed 
representation 最 早 由 Hinton 在 1986 年 提出 的 。 其 基本 思想 是 : 通过 训练 将 每 个 词 映 射 
成 天 维 实数 向 量 (K 一 般 为 模型 中 的 超 参数 ) ， 人 cosine 相似 度 、 欧 氏 
距离 等 ) 来 判断 它们 之 间 的 语义 相似 度 。 其 采用 一 个 三 层 的 神经 网 络 , 输 入 层 - 隐 层 -输出 
层 。 核 心 技术 是 根据 词 频 用 Huffman er ant epee 
一 致 ,出 现 频率 越 高 的 词语 ,它们 激活 的 隐藏 层 数目 越 少 , 这 样 有 效 地 降低 了 计算 的 复杂 度 。 
这 个 三 层 神经 网 络 本 身 是 对 语言 模型 进行 建 模 , 但 也 同时 获得 一 种 单词 在 向 量 空 间 上 的 表 
示 , 而 这 个 副作用 才 是 Word2Vec 的 真正 目标 。 


16.6 基于 阿里 云 数 加 平台 的 文本 分 析 实 例 


下 面 对 高 尔 基 的 作品 (海燕 》 进 行文 本 分 析 ,数据 信息 如 图 16-4 所 示 。 


ida contenta. 
GUESUOBR,ENGMEMRI. TZIE, Eae, EEUU, 
2  —SJEEHERB.—eJUE—IUBR OSA. COME. BS) NECONADSE , SU TE. 
3 SANNER AARNENANET! TUNE, DIGG REAR. MOSEN EO. 
4 NECBXAME HIDE. OS. SOEASL UE. SEGURO . ERE. 
5 BAUDGUNAES, —CÓLAHONTUE ， 享受 不 了 生活 的 战斗 的 欢乐 ; REENSRRECOTTT. 
6 EUIDODH, SEGNNDERISGMLESESURAUET REBEANSE, ONS, SAATE, PRS A! 
7 Scie AE, AER. TRS. OES RIDES. 
8 BEES. ERGUUMS CTEM SENSE, BE ENSEGE-SSER. 大 当 当地 汉 它 们 用 到 县 源 LI OGEIDS A AO SSAUS DER UR. 





10 EE, CE, GEI. — See. SOnSRER,— cere LXESU  SeBeGs, 它 导 为 欢乐 而 号 叫 ! 

11 。 SUES, SABRES FATES CIA, SERRE, BIS , IFEN! 

12 ERAN.. SASN. 

13 EST, CSRS. TERNAS LE. DSANN , IBCOISXEECHSSURB, SENSES. EE- ZEKE, TASER) , 一男 就 消失 - 
14 ”一 SRN! Sarasa: 

15 EEERHSS, GERMS). SAS? Sets: 这 是 胜利 的 预 二 京 在 驯 碱 : 

16 一 让 最 网 二 来得 更 号 列 些 吧 ! 


图 16-4 数据 信息 


SplitWord 是 一 种 分 词 方法 ,对 于 一 篇 文章 做 数据 
处 理 时 ,只 能 先 将 其 分 词 ,然后 对 单个 的 词 做 统计 以 及 





其 他 处 理 ,因此 ,可 以 得 到 如 图 16-5 所 示 的 操作 流 CENTA) 
程 图 。 au 
SplitWord, 基 于 AliWS(Alibaba Word Segmenter eui. o 


的 简称 ) 词 法 分 析 系统 ,对 指定 列 对 应 的 文章 内 容 进行 

分 词 ,分 词 后 的 各 个 词语 间 以 空格 作为 分 隔 符 , 若 用 户 TEC 日 Queer D 
指定 了 词性 标注 或 语义 标注 相关 参数 , 则 会 将 分 词 结 
果 、 词 性 标注 结果 和 语义 标注 结果 一 同 输出 ,其 中 词性 
标注 分 隔 符 为 “/”, 语 义 标注 分 隔 符 为 “|”。 目 前 仅 支持 中 文 淘宝 分 词 和 互联 网 分 词 。 其 字 
段 设置 与 参数 设置 如 图 16-6 所 示 , 其 中 字段 选择 的 是 id 和 content。 


图 16-5 阿里 云 平台 操作 流程 图 






































(a) (b) 
图 16-6 SplitWord 算法 设置 界面 


得 到 的 结果 如 图 16-7 所 示 。 


1 在 苍 共 的 大 海上 ， 亚 风 卷 集 着 乌云 。 在 乌云 和 大 海 之 问 ， 海 芒 像 轩 色 的 内 电 ， 在 高 做 地 飞 辣 . 

2 一 会 儿 现 谤 磁 着 流浪 ， 一 会 儿 笠 一 般 地 直 冲 向 号 云 ， 它 叫喊 着 ， 一 一 就 在 这 乌 儿 勇敢 的 叫喊 声 里 ， SENT RR. 

3 在 这 叫喊 声 里 一 一 充满 关 对 县 风雨 的 混 望 ! FROME, SAUNT MEHR. ME OR RO FERE IS b 

4 ASEEN REHANA, --OHS, SNEASL CE, REACT SHH BM, GRE AS RR. 

5 SRLERSS .-—CNRRBER ， 享 受 不 了 生活 的 战斗 的 欢乐 : SEO SARL CORT. 

6 IURIS SCTE NSE NEE ER... CBSO Se. BR ， 自 由 自在 地 ， 在 远 起 白 法 的 大 海上 飞翔 ! 

了 乌云 越 来 越 暗 ， 越 来 越 低 ， 向 海面 直 压 下 来 ， 而 让 浪 一 边 歌唱， 一 边 冲 向 高 宝 ， 去 迎接 那 重 声 。 

8 SARA. EXEUVES CUBE, RENAS. SH. HADEXGSE C ERER., ERRRECNAABEL., IBInÉEO BD RE UL DRE RO 
9 海 楷 叫 碱 若 ， 飞 用 着 ， 像 黑色 的 闪电， 笠 一 般 地 穿 过 乌云 ， 理 扑 掠 起 波浪 的 飞 法 - 

10 E, CWE., MER, Shh. SRHSRAHER. CHAR. CRESM.... CRBLSE. CRAREMSM! 

11 mE^ASSENS.——CMAEEOESTIB, PRK HTA, CRE, GERFEAR.--SH. BFEM! 

12 HRAN. SESA... 

13 | 一 堆 堆 乌云 ， 像 黑色 的 火 人 兆 ， 在 无 底 的 大 海上 燃烧 。 大 海 抓 住 闪 电 的 入 光 ， 把 它们 雹 灭 在 自己 的 深渊 里 。 这 些 闪 电 的 影子 SIT ERU EA 
14 一 一 号 风雨 ! RU ! 

15 ZSEROSA. EMANAS. CALHA. GENS US: 这 是 胜利 的 预言 家 在 叫喊 : 

16 ”一 一 让 县 风雨 来 得 更 至 烈 些 吧 ! 


图 16-7 Split 算法 实验 结果 
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图 16-8 词 频 统计 方法 设置 界面 


词 频 统 计 , 在 对 文章 进行 分 词 的 基础 上 , 按 行 保 序 输 
出 对 应 文章 ID 列 (docId) 对 应 文章 的 词 ,统计 指定 文章 ID 
列 (docId) 对 应 文章 内 容 (docContent) 的 词 频 。 其 字段 设 
置 如 图 16-8 所 示 。 

得 到 的 结果 部 分 截图 如 图 16-9 所 示 。 

TF-IDF (term frequency-inverse document frequency) . 
TF- 词 频 ,IDF- 逆 向 文件 频率 是 一 种 用 于 资讯 检索 与 文本 
挖掘 的 常用 加 权 技 术 。TF-IDF 是 一 种 统计 方法 ,用 以 评 


估 某 字 或 词 对 于 一 个 文件 集 或 一 个 语料库 中 的 其 中 一 份 文件 的 重要 程度 。 字 词 的 重要 性 随 
着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ,但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 反比 下 降 。 
TF-IDF 加 权 的 各 种 形式 常 被 搜索 引擎 应 用 ,作为 文件 与 用 户 查询 之 间 相关 程度 的 度量 或 


ida a counta ida worda 
1 | 的 [2 3 Im 
1 ie 1 1 |" 

1 zz 1 1 AB 

1 Ag 1 1 z 

1 |& |1 1T. [uw 

7 [wap |: 1 jw 
1 BER 1 1 |% 

1 me 1 $i [uw 
1 . 3 1 B 

2 E 2 1 «s» 
cmm = 2 —e 
2 —e 2 aa 
2 -—B 1 2 |* 

2 |S |2 2 |% 
E 1 2 |a 
2 出 1 NG 
"Ene > el 


(a) (b) 
图 16-9 算法 实验 结果 


评级 。 本 组 件 是 词 频 统 计 输 出 的 基础 上 ,计算 各 个 word 对 
于 各 篇 文章 的 TF-IDF 值 。 其 字段 设置 如 图 16-10 所 示 。 

得 到 的 结果 如 图 16-11 所 示 。 

Word2Vec, 是 Google 在 2013 年 开源 的 一 个 将 词 表 转 
为 向 量 的 算法 ,其 利用 神经 网 络 ,可 以 通过 训练 ,将 词 映射 
到 维度 空间 向 量 ,甚至 对 于 表示 词 的 向 量 进行 操作 ,还 
能 和 语义 相对 应 ,由 于 其 简单 和 高 效 引 起 了 很 多 人 的 关 
注 。 其 字段 设置 与 参数 设置 如 图 16-12 所 示 。 

得 到 的 结果 如 图 16-13 所 示 , 这 里 省 略 了 f4-f94。 























图 16-10 IT-IDF 方法 设置 界面 
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图 16-11 算法 实验 结果 
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图 16-12 Word2Vec 方法 设置 界面 
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图 16-13 算法 实验 结果 


16.7 小 结 


TF-IDF 是 一 种 用 于 信息 检索 与 数据 挖掘 的 加 权 技 术 , 用 来 评估 一 个 字 词 对 于 一 个 文 
件 集 或 一 个 语料库 中 的 其 中 一 份 文件 的 重要 程度 。 分 词 技术 针对 用 户 提交 查询 的 关键 词 串 
进行 的 查询 处 理 后 ,根据 用 户 的 关键 词 串 用 各 种 匹配 方法 进行 分 词 的 一 种 技术 。 常 见 的 分 
词 方法 分 为 三 类 : 基于 字典 或 词 库 匹 配 的 分 词 方法 、 基 于 词 频 度 统计 的 分 词 方法 以 及 基于 
知识 理解 的 分 词 方法 等 。 主 题 模型 就 是 通过 大 量 已 知 数据 训练 出 文字 中 所 隐 含 主题 的 一 种 
建 模 方 法 。 

Word2Vec 是 Google 在 2013 年 年 中 开源 的 一 款 将 词 表征 为 实数 值 向 量 的 高 效 工 具 ， 
其 利用 深度 学 习 的 思想 ,可 以 通过 训练 ,把 对 文本 内 容 的 处 理 简化 为 K 维 向 量 空间 中 的 向 
量 运算 ,而 向 量 空间 上 的 相似 度 可 以 用 来 表示 文本 语义 上 的 相似 度 。Word2Vec 输出 的 词 
向 量 可 以 被 用 来 做 很 多 NLP 相关 的 工作 ,例如 聚 类 、 找 同义词 .词性 分 析 等 。 
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第 17 章 推荐 系统 方法 及 应 用 





17.1 推荐 系统 简介 


推荐 系统 是 通过 用 户 与 信息 产品 之 间 二 元 关系 ,利用 已 有 的 选择 过 程 或 相似 性 关系 挖 
掘 每 个 用 户 潜在 感 兴趣 的 对 象 ,进而 进行 个 性 化 推荐 ,其 本 质 就 是 信息 过 滤 。 一 个 完整 的 推 
荐 系统 由 3 个 部 分 组 成 : 收集 用 户 信息 的 行为 记录 模块 ,分 析 用 户 喜 好 的 模型 分 析 模 块 和 
推荐 算法 模块 。 


17.2 基于 内 容 的 推荐 算法 


17.2.1 基于 内 容 的 推荐 算法 原理 


基于 内 容 的 推荐 (Content-based Recommendations,CBR) 是 根据 用 户 过 去 喜欢 的 物品 
Cite) ,为 用 户 推荐 和 他 过 去 喜欢 的 产品 相似 的 产品 。 例 如 ,一 个 推荐 饭店 的 系统 可 以 依据 
某 个 用 户 之 前 喜欢 很 多 的 烤肉 店 而 为 他 推荐 烤肉 店 。CBR 最 早 主要 是 应 用 在 信息 检索 系统 
当中 ,所 以 很 多 信息 检索 及 信息 过 滤 里 的 方法 都 能 用 于 CBR 中 。 

基于 内 容 的 推荐 的 基本 思想 是 : 对 每 个 用 户 都 用 一 个 称 作 用 户 兴趣 模型 (user profile) 
的 文件 构成 数据 结构 来 描述 其 喜好 ; 对 每 个 物品 的 内 容 进 行 特征 提取 (Feature 
Extraction) ,形成 特征 向 量 (feature vector); 当 需 要 对 某 个 用 户 进行 推荐 时 ,把 该 用 户 的 用 
户 兴趣 模型 同 所 有 物品 的 特征 矩阵 进行 比较 ,得 到 二 者 的 相似 度 , 系 统 通过 相似 度 进行 推 
荐 。CBR 的 过 程 一般 包 括 以 下 三 步 。 

(1) Item Representation: 为 每 个 item 抽取 出 一 些 特征 (也 就 是 item 的 content) 来 表 
示 此 item。 

(2) Profile Learning: 利用 一 个 用 户 过 去 喜欢 (及 不 喜欢 ) 的 item 的 特征 数据 ,来 学 习 
出 此 用 户 的 喜好 特征 (profile)。 

(3) Recommendation Generation: 通过 比较 上 一 步 得 到 的 用 户 profile 与 候选 item 的 
特征 ,为 此 用 户 推 荐 一 组 相关 性 最 大 的 item。 

文献 [3] 对 于 上 面 的 三 个 步骤 给 出 一 张 很 细致 的 流程 图 (第 一 步 对 应 Content 
Analyzer, 第 二 步 对 应 Profile Learner. 第 三 步 对 应 Filtering Component) ,如 图 17-1 所 示 。 

举 个 例子 说 明 前 面 的 三 个 步骤 。 对 于 个 性 化 阅读 来 说 ,一 个 item 就 是 一 篇 文章 。 根 据 
上 面 的 第 一 步 , 我 们 首先 要 从 文章 内 容 中 抽取 出 代表 它们 的 属性 。 常 用 的 方法 就 是 利用 出 
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图 17-1 基于 内 容 的 推荐 系统 架构 




















现在 一 篇 文章 中 的 词 来 代表 这 篇 文章 , 而 每 个 词 对 应 的 权重 往往 使 用 信息 检索 中 的 TF- 
IDF 来 计算 。 例 如 对 于 本 文 来 说 , 词 *CBR”、“ 推 荐 "和 “喜好 ”的 权重 会 比较 大 ,而 “烤肉 ”这 
个 词 的 权重 会 比较 低 。 利 用 这 种 方法 ,一 篇 抽象 的 文章 就 可 以 使 用 一 个 向 量 来 表示 了 。 第 
二 步 就 是 根据 用 户 过 去 喜欢 什么 文章 来 产生 刻画 此 用 户 喜 好 的 profile, 最 简单 的 方法 可 以 
把 用 户 所 有 喜欢 的 文章 对 应 的 向 量 的 平均 值 作为 此 用 户 的 profile。 例 如 某 个 用 户 经 常 关注 
与 推荐 系统 有 关 的 文章 ,那么 他 的 profile 中 “CBR”“CF” 和 “推荐 ”对 应 的 权重 值 就 会 较 高 。 
在 获得 了 一 个 用 户 的 profile 后 ,CBR 就 可 以 利用 所 有 item 与 此 用 户 profile 的 相关 度 对 他 
进行 推荐 文章 了 。 一 个 常用 的 相关 度 计算 方法 是 余弦 相似 度 (Cosine Similarity)。 最 终 把 
候选 item 里 与 此 用 户 最 相关 (余弦 相似 度 值 最 大 ) 的 N 个 item 作为 推荐 返回 给 此 用 户 。 接 
下 来 详细 介绍 下 上 面 的 三 个 步骤 。 

1. Item Representation 

真实 应 用 中 的 item 往往 都 会 有 一 些 可 以 描述 它 的 属性 。 这 些 属 性 通常 可 以 分 为 两 种 : 
结构 化 的 (structured) 属性 与 非 结构 化 的 (unstructured) 属 性。 所 谓 结构 化 的 属性 就 是 这 个 
属性 的 意义 比较 明确 ,其 取 值 限定 在 某 个 范围 ; 而 非 结构 化 的 属性 往往 其 意义 不 太 明 确 , 取 
值 也 没什么 限制 ,不 好 直接 使 用 。 例 如 在 交友 网 站 上 item 就 是 人 ,一 个 item 会 有 结构 化 属 
性 如 身高 ,学历 .籍贯 等 ,也 会 有 非 结 构 化 属性 (如 item 自己 写 的 交友 宣言 ,博客 内 容 等 )。 
对 于 结构 化 数据 ,自然 可 以 拿 来 就 用 ; 但 对 于 非 结 构 化 数据 (如 文章 ) ,往往 要 先 把 它 转化 为 
结构 化 数据 后 才能 在 模型 里 加 以 使 用 。 真 实 场景 中 碰 到 最 多 的 非 结构 化 数据 可 能 就 是 文章 
了 (如 个 性 化 阅读 中 )。 下 面 详 细 介绍 如 何 把 非 结 构 化 的 一 篇 文章 结构 化 。 如 何 表征 一 篇 文 
章 在 信息 检索 中 已 经 被 研究 很 长 时 间 了 ,向 量 空 间 模型 (Vector Space Model, VSM) 是 常用 
的 表征 技术 之 一 。 




















假设 要 表示 的 所 有 文章 集合 为 D={di, 心 ,.…,dxv}, 而 所 有 文章 中 出 现 的 词 ( 对 于 中 文 
文章 ,首先 得 对 所 有 文章 进行 分 词 ) 的 集合 (也 称 为 词典 ) 为 T= (titers ,ts)。 也 就 是 说 ， 
我 们 有 N 篇 要 处 理 的 文章 ,而 这 些 文章 里 包含 了 nn 个 不 同 的 词 。 我 们 最 终 要 使 用 一 个 向 量 
来 表示 一 篇 文章 ,例如 第 j 篇 文章 被 表示 为 dj 二 {wy wzy. wi) AP wy 表示 第 1 个 词 
h 在 文章 7 中 的 权重 , 值 越 大 表示 越 重要 ; d; 中 其 他 向 量 的 解释 类 似 。 所 以 ,为 了 表示 第 j 
篇 文章 ,现在 关键 的 就 是 如 何 计 算 d; 各 分 量 的 值 。 例 如 ,如 果 词 出 现在 第 j 篇 文章 中 ， 
我 们 可 以 选取 wy 为 1; WR 未 出 现在 第 7 篇 文章 中 , 则 其 值 为 0。 我 们 也 可 以 选取 wj 为 
ipn 出 现在 第 /篇 文章 中 的 次 数 (frequency)。 但 是 用 得 最 多 的 计算 方法 还 是 信息 检索 中 
常用 的 词 频 - 道 文档 频率 (Term Frequency-Inverse Document Frequency. TF-IDF). 48 j 篇 
文章 中 与 词典 里 第 个 词 对 应 的 TF-IDF 为 : 


TF—IDF(4.d;) = TFC .d;) X log Š 
TE .d;) 
x Au" 


IDF 
其 中 TF di) 是 第 & 个 词 在 文章 ) 中 出 现 的 次 数 ,而 m 是 所 有 文章 中 包含 第 k 个 词 
的 文章 数量 。 最 终 第 & 个 词 在 文章 ) 中 的 权重 由 下 面 的 公式 获得 : 
TF — IDF (t .d;) 


| X TF- IDFG,.d;»* 
=1 


做 归 一 化 的 好 处 是 不 同文 章 之 间 的 表示 向 量 被 归 一 化 到 一 个 量 级 上 ,便于 下 面 步骤 的 
操作 。 

2. Profile Learning 

假设 用 户 u 已 经 对 一 些 item 给 出 了 他 的 喜好 判断 ,喜欢 其 中 的 一 部 分 item, 不 喜欢 其 
中 的 另 一 部 分 。 那 么 ,这 一 步 要 做 的 就 是 通过 用 户 u 过 去 的 这 些 喜好 判断 ,为 他 产生 一 个 模 
型 。 有 了 这 个 模型 ,我 们 就 可 以 根据 此 模型 来 判断 用 户 a 是 否 会 喜欢 一 个 新 的 item。 所 
以 ,我 们 要 解决 的 是 一 个 典型 的 有 监督 分 类 问题 ,理论 上 机 器 学 习 里 的 分 类 算法 都 可 以 照搬 
进 这 里 。CBR 里 常用 的 学 习 算 法 有 如 下 几 种 。 

1) KNN 算法 

对 于 一 个 新 的 item, 最 近邻 方法 首先 找 用 户 u 已 经 评判 过 并 与 此 新 item 最 相似 的 个 
item, 然后 依据 用 户 u 对 这 & 个 item 的 喜好 程度 来 判断 其 对 此 新 item 的 喜好 程度 。 这 种 做 
法 和 后 面 介绍 的 协同 过 滤 (Collaborative Filtering,.CF) 推 荐 算法 中 的 item-based KNN 很 
相似 ,差别 在 于 这 里 的 item 相似 度 是 根据 item 的 属性 向 量 计 算得 到 ,而 CF 中 是 根据 所 有 
用 户 对 item 的 评分 计算 得 到 。 

该 方法 的 关键 问题 是 如 何 通过 item 的 属性 向 量 计 算 item 之 间 的 相似 度 。 文 献 L2] 中 
建议 对 于 结构 化 数据 ,相似 度 计 算 使 用 欧 几 里 得 距离 ; 而 如 果 使 用 向 量 空间 模型 (VSM) 来 
表示 item 的 话 , 则 相似 度 计 算 可 以 使 用 余弦 相似 度 。 

2) Rocchio 算法 

Rocchio 算法 是 信息 检索 中 处 理 相 关 反 馈 (Relevance Feedback) 的 一 个 著名 算法 。 例 
如 用 户 在 搜索 引擎 里 搜 " 苹 果 ”, 当 用 户 最 开始 搜索 这 个 词 时 ,搜索 引擎 不 知道 用 户 到 底 是 要 
搜索 水 果 还 是 电子 产品 ,所 以 往往 会 尽量 呈现 各 种 结果 。 当 用 户 看 到 这 些 结果 后 ,用 户 会 点 
击 一 些 自己 觉得 相关 的 结果 (这 就 是 所 谓 的 相关 反馈 )。 然 后 如 果 用 户 翻 页 查看 第 二 页 的 结 
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果 时 ,搜索 引擎 可 以 通过 用 户 刚才 给 的 相关 反馈 ,修改 用 户 的 查询 向 量 取 值 ,重新 计算 网 页 
得 分 ,把 跟 用 户 刚 才 点 击 的 结果 相似 的 结果 排 前 面 。 例 如 用 户 最 开始 搜索 “苹果 ”时 ,对 应 的 
查询 向 量 是 {“ 苹 果 ”.; 1} 。 而 当 用 户 点 击 了 一 些 与 Mac.iPhone 相关 的 结果 后 ,搜索 引擎 会 
把 用 户 的 查询 向 量 修改 为 人 苹果”: 1,“Mac”: 0.8. "iPhone": 0.7} ,通过 这 个 新 的 查询 向 
量 , 搜 索引 擎 就 能 比较 明确 地 知道 用 户 要 找 的 是 电子 产品 了 。Rocchio 算法 的 作用 就 是 用 
来 修改 用 户 的 查询 向 量 : (“苹果 ”: 1)-> (“苹果 ”: 1. "Mac": 0.8, "iPhone": 0.7}. 在 
CBR 中 ,可 以 使 用 Rocchio 算法 来 获取 用 户 u 的 profile w: 
w= BX TX DX GX _D 
wE 


w Ely 












































Jt ro; 2A itemj 的 属性 ,1, MIr 2: 3E CLA EH EKG OC item KA. gl 
7 为 正 负 反 馈 的 权重 ,它们 的 值 由 系统 给 定 。 在 获得 i 后 ,对 于 某 个 给 定 的 item j, 可 以 使 
用 三 与 这 的 相似 度 来 代表 用 户 吕 对 7 的 喜好 度 。Rocchio 算法 的 一 个 好 处 是 可 以 根据 用 
户 的 反馈 实时 更 新 ,其 更 新 代价 很 小 。 由 于 要 解决 的 问题 是 一 个 典型 的 有 监督 学 习 问 题 ,所 
以 常见 的 分 类 算法 都 可 以 用 到 这 里 。 

3) 决策 树 (Decision Tree, DT) 

当 item 的 属性 较 少 而 且 是 结构 化 属性 时 ,决策 树 一 般 会 是 个 好 的 选择 。 这 种 情况 下 决 
策 树 可 以 产生 简单 直观 、 容 易 让 人 理解 的 结果 。 而 且 我 们 可 以 把 决策 树 的 决策 过 程 展示 给 
用 户 u, 告 诉 他 为 什么 这 些 item 会 被 推荐 。 但 是 如 果 item 的 属性 较 多 , 且 都 来 源 于 非 结构 
化 数据 (如 item 是 文章 ) ,那么 决策 树 的 效果 可 能 并 不 会 很 好 。 

4) 朴素 贝 叶 斯 (Naive Bayesian,NB) 算 法 

现在 的 profile learning 问题 中 包括 两 个 类 别 : 用 户 u 喜欢 的 item, 以 及 他 不 喜欢 的 
item。 在 给 定 一 个 item 的 类 别 后 ,其 各 个 属性 的 取 值 概率 互相 独立 。 我 们 可 以 利用 用 户 u 
的 历史 喜好 数据 训练 朴素 贝 叶 斯 方法 ,之 后 再 用 训练 好 的 朴素 贝 叶 斯 算法 对 给 定 的 item 做 
分 类 。 

5) 线性 分 类 算法 

对 于 这 里 的 二 类 问题 ,线性 分 类 器 (Linear Classifier,LC) 尝 试 在 高 维 空间 找 一 个 平面 ， 
使 得 这 个 平面 尽量 分 开 两 类 点 。 也 就 是 说 ,一 类 点 尽 可 能 地 在 平面 的 某 一 边 , 而 另 一 类 点 尽 
可 能 地 在 平面 的 另 一 边 。 

仍 以 学 习 用 户 u 的 分 类 模型 为 例 。 太 表示 item j 的 属性 向 量 ,那么 LC 尝试 在 太空 间 
中 找平 面 c*。 这 ,使 得 此 平面 尽量 分 开 用 户 u 喜欢 与 不 喜欢 的 item。 其 中 的 心 就 是 我 们 要 
学 习 的 参数 。 最 常用 的 学 习 心 的 方法 就 是 梯度 下 降 法 ,其 更 新 过 程 如 下 : 

ee, Luo — ye 

其 中 的 上 角 标 1 表示 第 t 次 迭代 ,yw 表示 用 户 u XE item j 的 打分 (例如 ,喜欢 则 值 为 1， 
不 喜欢 则 值 为 一 1) 。7 为 学 习 率 , 它 控制 每 步 欠 代 变 化 多 大 ,由 系统 给 定 。 和 Rocchio 算法 一 
样 ,上 面 更 新 公式 的 好 处 就 是 它 可 以 以 很 小 的 代价 进行 实时 更 新 ,实时 调整 用 户 HEAT o 

3. Recommendation Generation 

如 果 上 一 步 Profile Learning 中 使 用 的 是 分 类 模型 (如 DT、LC 和 NB 算法 ), 那 么 我 们 
只 要 把 模型 预测 的 用 户 最 可 能 感 兴趣 的 n 个 item 作为 推荐 返回 给 用 户 即 可 。 而 如 果 
Profile Learning 中 使 用 的 直接 学 习 用 户 属性 的 方法 (如 Rocchio 算法 ), 那 么 我 们 只 要 把 与 





— yu 
tw; — yu) ws 














用 户 属性 最 相关 的 个 item 作为 推荐 返回 给 用 户 即 可 。 其 中 的 用 户 属性 与 item 属性 的 相 
关 性 可 以 使 用 如 余弦 相似 度 等 度量 获得 。 


17.2.2. 基于 内 容 的 推荐 算法 的 特点 


CBR 有 如 下 优点 。 

(1) 不 需要 其 他 用 户 的 数据 ,没有 冷 启动 问题 和 稀 疏 问题 。 即 每 个 用 户 的 profile 都 是 
依据 它 本 身 对 item 的 喜好 获得 的 ,自然 就 与 他 人 的 行为 无 关 。 

(2) 能 为 具有 特殊 兴趣 爱好 的 用 户 进行 推荐 。 

(3) 能 推荐 新 的 或 不 是 很 流行 的 物品 ,没有 新 物品 问题 。 新 物品 进入 推荐 系统 后 ,基于 
内 容 的 推荐 方法 为 其 提取 特征 ,进而 建立 刻画 其 内 容 的 特征 向 量 , 然 后 根据 用 户 偏好 文档 决 
定 是 否 向 用 户 推荐 。 

(4) 通过 列 出 推荐 物品 的 内 容 特 征 ,可 以 解释 为 什么 推荐 那些 物品 。 如 果 需 要 向 用 户 
解释 为 什么 推荐 了 这 些 产 品 给 他 ,系统 只 要 告诉 他 这 些 产品 有 某 某 属性 ,这 些 属性 跟 他 的 品 
位 很 匹配 等 等 。 

CBR 的 缺点 如 下 。 

CD 有 限 的 内 容 分 析 。 只 能 分 析 一 些 容易 提取 的 文本 类 内 容 ( 新 闻 、 网 页 、 博 客 ) ,而 自 
动 提取 多 媒体 数据 (图 形 、 视 频 流 、 声 音 流 等 ) 的 内 容 特 征 具有 技术 上 的 困难 。 

(2) 过 度 规范 问题 。 不 能 为 用 户 发 现 新 的 感 兴趣 的 资源 ,只 能 发 现 和 用 户 已 有 兴趣 相 
似 的 资源 。 

(3) 新 用 户 问 题 。 当 一 个 新 的 用 户 没 有 或 很 少 对 任何 商品 进行 评分 时 ,系统 无 法 向 该 
用 户 提 供 可 信 的 推荐 。 



































17.3 协同 过 滤 推 荐 算法 


17.3.1 协同 过 滤 推 荐 算法 简介 


协同 过 滤 (Collaborative Filtering,CF) 推 荐 算法 是 推荐 系统 中 主流 的 推荐 算法 。 其 基 
本 假设 为 : 为 了 给 用 户 推荐 感 兴趣 的 内 容 , 可 通过 找到 与 该 用 户 偏好 相似 的 其 他 用 户 ,并 将 
他 们 感 兴趣 的 内 容 推荐 给 该 用 户 。 协 同 过 滤 方 法 分 为 基于 记忆 (memory-based) 的 协同 过 
滤 方法 和 基于 模型 (model-based) 的 协同 过 滤 方 法 。 

1. 基于 记忆 (memory-based) 的 协同 过 滤 方 法 

基于 记忆 方法 采用 用 户 -物品 (user-item) 评 分 数据 ,为 目标 用 户 估计 对 某 一 特定 物品 的 
评分 或 产生 一 个 推荐 列表 。 该 方法 又 可 分 为 基于 用 户 的 协同 过 滤 推 荐 算法 、 基 于 物品 的 协 
同 过 滤 推 荐 算法 、 基 于 用 户 的 Top-N 算法 以 及 基于 物品 的 Top-N 算法 。 

D 基于 用 户 的 协同 过 滤 推 荐 算法 

该 算法 通过 不 同 用 户 对 物品 的 评分 来 评测 用 户 之 间 的 相似 性 ,然后 基于 用 户 之 间 的 相 
似 性 做 出 推荐 。 具 体 而 言 ,基于 用 户 的 协同 过 滤 算 法 是 通过 用 户 的 历史 行为 数据 ,发 现 用 户 
对 物品 的 喜好 (如 商品 购买 ,收藏 ,内 容 评论 或 分 享 ) ,并 对 这 些 喜 好 进行 度量 和 打分 。 根 据 
不 同 用 户 对 相同 商品 或 内 容 的 态度 和 偏好 程度 计算 用 户 之 间 的 关系 ,在 有 相同 喜好 的 用 户 
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间 进 行商 品 推荐 。 简 单 地 说 ,如 图 17-2 所 示 , 用 户 userl 和 user2 都 购买 了 Product2 和 
Product3, 若 他 们 都 给 出 了 5 星 好 评 , 那 么 用 户 userl 和 user2 就 属于 同一 类 用 户 。 可 以 将 
userl 买 过 的 产品 Productl 和 Product4 推荐 给 user2。 


Productl Product2 Product3 Product4 











图 17-2 基于 用 户 的 协同 过 滤 推 荐 算法 示意 图 





基于 用 户 的 协同 过 滤 推 荐 算法 的 实现 步骤 如 下 。 

CD 找到 和 目标 用 户 兴趣 相似 的 用 户 集合 。 首 先 计算 两 个 用 户 uv 的 兴趣 相似 度 ,这 里 
主要 利用 用 户 行为 相似 度 来 计算 其 兴趣 相似 度 , 设 表示 用 户 u 曾 经 有 过 正 反馈 的 物品 集合 ， 
表示 集合 中 元 素 的 个 数 , 可 以 采用 Jaccard 公式 或 余弦 相似 度 进行 度量 ,其 公式 如 下 s 














|NCumNCv)1| 
FR ey mm ENA 
Jaccard 公式 : ww = TUNG) | 
ING) ANG) | 
余弦 相似 度 : wa = 
VNCu)NCv) 


然后 根据 ww 的 大 小 选 出 与 用 户 u 兴趣 最 接近 的 天 个 用 户 (K 的 大 小 视 情 况 而 定 ), 求 
与 这 K 个 用 户 有 过 正 反馈 的 物品 集合 的 并 集 。 

Q) 找到 这 个 集合 中 的 用 户 喜欢 的 , 且 目 标 用 户 没 有 听 说 过 的 物品 推荐 给 目标 用 户 。 首 
先 计算 用 户 u 对 物品 i 的 感 兴趣 程度 : 


ps= >) wars 
zESuknNGD 


其 中 ,Se 表示 与 用 户 u 兴趣 最 接近 的 K 个 用 户 的 集合 ,NGD) 表 示 对 物品 了 有 过 正 反 馈 
的 用 户 的 集合 ,rw 表示 用 户 v 对 物品 守 的 感 兴趣 程度 (用 正 整 数 表示 )。 通 过 设 定 阔 值 来 决 
定 是 否 推 荐 物品 i。 

2) 基于 物品 的 协同 过 滤 推 荐 算法 

该 算法 通过 用 户 对 不 同 物品 的 评分 来 评测 物品 之 间 的 相似 性 ,基于 物品 之 间 的 相似 性 
做 出 推荐 。 这 里 不 是 利用 物品 自身 属性 去 计算 物品 之 间 的 相似 度 ,而 是 通过 分 析 用 户 的 行 
为 记录 来 计算 物品 之 间 的 相似 度 。 有 具体 而 言 , 基 于 物品 的 协同 过 滤 算 法 与 基于 用 户 的 协同 
过 滤 算 法 很 相像 ,将 商品 和 用 户 互 换 , 通 过 计算 不 同 用 户 对 不 同 物品 的 评分 获得 物品 间 的 关 
系 , 基 于 物品 间 的 关系 对 用 户 进行 相似 物品 的 推荐 ,这 里 的 评分 代表 用 户 对 商品 的 态度 和 偏 
好 。 简 单 地 说 ,如 图 17-3 所 示 , 用 户 Userl 购买 了 商品 Productl、Product3 和 Product4 ,用 
P User2 购买 了 商品 Product] 和 Product3, 那 说 明 , 商 品 Product] 和 Product3 有 关联 , 当 
用 户 User3 也 购买 了 商品 Product3 时 ,可 以 推断 他 也 有 购买 商品 Product2 的 需求 。 


~ 
Product! Product2 Product3 Product4 
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图 17-3 基于 物品 的 协同 过 滤 推 荐 算法 示意 图 


基于 物品 的 协同 过 滤 推 荐 算法 的 实现 步骤 如 下 。 
CD 计算 物品 之 间 的 相似 度 。 设 N( 让 表示 喜欢 物品 i 的 用 户 的 集合 ,| NG | 表示 集合 
N( 让 中 元 素 的 个 数 , 则 喜欢 物品 i 的 用 户 中 喜欢 物品 j 的 用 户 的 比例 wi 为 : 


— IN@ANG@ | 
| NO | 


为 避免 造成 任何 物品 都 会 和 热门 的 物品 有 很 大 的 相似 度 ( 当 物 品 7 比较 热门 时 ,wi 会 
接近 1), 可 以 将 上 述 公 式 改进 为 : 


Wy 


w = LNO ONG | 
VINOT NT 
然后 根据 wi 的 大 小 选 出 与 物品 i 最 接近 的 天 个 物品 (K 的 大 小 视 情况 而 定 ), 求 这 K 
个 物品 集合 。 
@ 根据 物品 的 相似 度 和 用 户 的 历史 行为 给 用 户 生 成 推荐 列表 。 计 算 用 户 u 对 物品 j 
的 感 兴趣 程度 pw: 


w= D wrs 
i€ Si NNW) 


其 中 ,NGCu) 表 示 用 户 u 曾经 有 过 正 反 馈 的 物品 集合 ,Sjx 表 示 与 物品 i 最 相似 的 K 个 物 
品 的 集合 ,rs 表示 用 户 u 对 物品 j 的 感 兴趣 程度 (用 正 整 数 表示 ) ,通过 设 定 阔 值 来 决定 是 否 
推荐 物品 从 而 生成 推荐 列表 。 

3) 基于 用 户 的 Top-N 算法 

与 基于 用 户 的 协同 过 滤 推 荐 算法 相似 ,但 不 再 设 阔 值 ,而 是 通过 对 物品 的 感 兴趣 程度 的 
大 小 选取 前 NON 为 参数 ,其 值 视 情况 而 定 ) 个 物品 。 

4) 基于 物品 的 Top-N 算法 

与 基于 物品 的 协同 过 滤 推 荐 算法 相似 ,但 不 再 设 阔 值 ,而 是 通过 对 物品 的 感 兴趣 程度 的 
大 小 选取 前 NON 为 参数 ,其 值 视 情况 而 定 ) 个 物品 。 

2. 基于 模型 (model-based) 的 协同 过 滤 方 法 

推荐 问题 可 以 看 作 是 分 类 或 预测 问题 。 基 于 模型 的 推荐 方法 采用 统计 学 、 机 器 学 习 、 数 
据 挖掘 等 方法 ,根据 用 户 历史 数据 为 用 户 建立 模型 ,并 据 此 产生 合理 的 推荐 。 这 类 方法 其 在 
一 定 程度 上 解决 了 用 户 -物品 评分 矩阵 的 稀 政 性 问题 ,下 面 给 出 了 一 个 简单 的 评分 模型 。 
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其 中 N 为 正 整数 (具体 值 视 情况 而 定 ),z 为 评分 估计 值 ( 取 1 到 N 之 间 的 整数 ) ,表示 
用 户 u 对 物品 i 的 评分 估计 ( 取 1 到 NN 之 间 的 整数 ), 为 用 户 给 出 评分 估计 为 r 的 概率 。 基 
于 模型 的 算法 可 以 借助 分 类 线性 回归 和 聚 类 等 机 器 学 习 实 现 ,主要 有 基于 朴素 贝 叶 斯 分 类 
的 推荐 算法 、 基 于 线性 回归 的 推荐 方法 以 及 基于 马尔 科 夫 决策 过 程 的 推荐 算法 等 。 

【 例 17.1】 对 于 用 户 A,B,C,D Alpin avb.c.d, iE NCA) — (a.b. d] , NCB) — (a.c), 
N(C) — (b.e) . NCD) = (e.d.e) ,各 用 户 对 各 物品 的 感 兴趣 程度 均 为 1, 推荐 阔 值 为 0.7。 基 
于 用 户 的 协同 过 滤 推 荐 算法 给 用 户 A 推荐 物品 。 

解 : 由 余弦 相似 度 计 算 公 式 可 知 


























il 
WAB » AC ， WAD 3 


V6 V6 
W K=3, WAP A 对 物品 ce 的 感 兴趣 程度 为 
Pac = was +H wan 220.7416. pae = wac + wap ~ 0.7416 

TW c BL EL 0. 7 可 知 : 物品 ce 均 可 推荐 给 A 

【 例 17.2] 对 于 用 户 A、B、C、D 和 物品 a、b、c.d, 设 NCA) — (a. b.d], NC(BD — {a,c}. 
N(O — (b.e) , NCD) = (e.d.e) ,各 用 户 对 各 物品 的 感 兴趣 程度 均 为 1 ,推荐 阀 值 为 0.5。 基 
于 物品 的 协同 过 滤 推 荐 算法 给 通过 物品 a 给 用 户 A 推荐 物品 。 

解 : N(a)={A,B},N(b)=(A,C} ,N(c)={B,D} .N(d)={A,D},NCe)={C,D}; 
i 1 1 0 




















Wab 2 Wac 7? Wa z7? We 2 0 
W K—3 , 则 用 户 A 对 物品 ce 的 感 兴趣 程度 为 
ba. 一 0.5 


则 由 阔 值 为 0.5 可 知 : 物品 c 可 推荐 给 A. 
17.3.2 协同 过 滤 推荐 算法 的 特点 


协同 过 滤 有 下 列 优点 。 

(1) 能 够 过 滤 难 以 进行 机 器 自动 基于 内 容 分 析 的 信息 ,如 艺术 品 .音乐 。 

(2) 能 够 基于 一 些 复杂 的 、 难 以 表达 的 概念 (信息 质量 .品位 ) 进 行 过 滤 。 

(3) 推荐 的 新 颖 性 。 

协同 过 滤 算 法 的 缺点 如 下 。 

(1) 用 户 对 商品 的 评价 非常 稀疏 ,这 样 基于 用 户 的 评价 所 得 到 的 用 户 间 的 相似 性 可 能 
不 准确 ( 即 稀疏 性 问题 ) 。 

(2) 随 着 用 户 和 商品 的 增多 ,系统 的 性 能 会 越 来 越 低 。 

(3) 如 果 从 来 没有 用 户 对 某 一 商品 加 以 评价 , 则 这 个 商品 就 不 可 能 被 推荐 ( 即 最 初评 价 
问题 ) 。 


17.4 混合 推荐 算法 


混合 推荐 算法 是 指 将 多 种 推荐 技术 进行 混合 来 相互 弥补 缺点 ,从 而 获得 更 好 的 推荐 效 
果 。 具 体 而 言 ,混合 推荐 算法 有 如 下 几 种 类 型 。 


1. 加 权 型 

将 多 种 推荐 技术 的 计算 结果 加 权 混 合 产生 推荐 。 最 简单 的 方式 是 线性 混合 ,首先 将 协 
同 过 滤 的 推荐 结果 和 基于 内 容 的 推荐 结果 赋予 相同 的 权重 值 ,然后 比较 用 户 对 物品 (item) 
的 评价 与 系统 的 预测 是 否 相 符 ,然后 调整 权重 值 。 加 权 型 混合 方式 的 特点 是 整个 系统 性 能 
都 直接 与 推荐 过 程 相关 ,这 样 一 来 就 很 容易 调整 相应 的 混合 模型 ,不 过 这 种 技术 有 一 个 假设 
的 前 提 , 即 对 于 整个 空间 中 所 有 可 能 的 物品 ,使 用 不 同 技 术 的 相关 参数 值 都 基本 相同 。 

2. 转换 型 

根据 问题 背景 和 实际 情况 采用 不 同 的 推荐 技术 。 例 如 ,使 用 基于 内 容 推 荐 和 协同 过 滤 
混合 的 方式 ,系统 首先 使 用 基于 内 容 的 推荐 技术 ,如 果 它 不 能 产生 高 可 信 度 的 推荐 ,然后 再 
尝试 使 用 协同 过 滤 技 术 。 因 为 需要 各 种 情况 比较 转换 标准 ,所 以 这 种 方法 会 增加 算法 的 复 
杂 度 和 参数 化 ,当然 这 样 做 的 好 处 是 对 各 种 推荐 技术 的 优点 和 弱点 比较 敏感 。 

3. 合并 型 

同时 采用 多 种 推荐 技术 给 出 多 种 推荐 结果 ,为 用 户 提供 参考 。 例 如 ,可 以 构建 这 样 一 个 
基于 Web 日 志和 缓存 数据 挖掘 的 个 性 化 推荐 系统 ,该 系统 首先 通过 挖掘 Web 日 志和 缓存 
数据 构建 用 户 多 方面 的 兴趣 模式 ,然后 根据 目标 用 户 的 短期 访问 历史 与 用 户 兴 趣 模式 进行 
匹配 ,采用 基于 内 容 的 过 滤 算 法 ,向 用 户 推荐 相似 网 页 ,同时 ,通过 对 多 用 户 间 的 系统 过 滤 ， 
为 目标 用 户 预测 下 一 步 最 有 可 能 的 访问 页 面 ,并 根据 得 分 对 页 面 进行 排序 , 附 在 现行 用 户 请 
求 访问 页 面 后 推荐 给 用 户 。 也 就 是 “ 猜 你 喜欢 可 能 感 兴趣 的 网 页 ”。 

4. 特征 组 合 型 

将 来 自 不 同 推荐 数据 源 的 特征 组 合 起 来 ,由 另 一 种 推荐 技术 采用 。 一 般 会 将 协同 过 滤 
的 信息 作为 增加 的 特征 向 量 , 然 后 在 这 增加 的 数据 集 上 采用 基于 内 容 的 推荐 技术 。 特 征 组 
合 的 混合 方式 使 得 系统 不 再 仅仅 考虑 协同 过 滤 的 数据 源 , 所 以 它 降低 了 用 户 对 物品 评分 数 
量 的 敏感 度 ; 相反 的 , 它 允 许 系统 拥有 项 的 内 部 相似 信息 ,其 对 协同 系统 是 不 透明 的 。 

5. 瀑布 型 

这 是 一 个 分 阶段 的 过 程 , 即 后 一 个 推荐 方法 优化 前 一 个 推荐 方法 。 该 类 型 的 方法 首先 
用 一 种 推荐 技术 产生 一 个 较为 粗略 的 候选 结果 ,在 此 基础 上 使 用 第 二 种 推荐 技术 对 其 做 出 
进一步 精确 地 推荐 。 瀑 布 型 允许 系统 对 某 些 项 避免 采用 低 优 先 级 的 技术 ,这 些 项 可 能 是 通 
过 第 一 种 推荐 技术 被 较 好 的 予以 区 分 了 的 ,或 者 是 很 少 被 用 户 评价 从 来 都 不 会 被 推荐 的 物 
品 。 因 为 瀑布 型 的 第 二 步 , 仅 仅 是 集中 在 需要 另外 判断 的 项 上 。 另 外 ,瀑布 型 在 低 优先 级 技 
术 上 具有 较 高 的 容错 性 ,因为 高 优先 级 得 出 的 评分 会 变 得 更 加 精确 ,而 不 是 被 完全 修改 。 

6. 特征 递增 型 

该 类 型 方法 将 前 一 个 推荐 方法 的 输出 作为 后 一 个 推荐 方法 的 输入 。 例 如 ,可 以 将 聚 类 
分 析 作 为 关联 规则 的 预 处 理 , 首 先 对 会 话 文件 进行 聚 类 ,再 针对 每 个 聚 类 进行 关联 规则 挖 
掘 ,得 到 不 同 聚 类 的 关联 规则 。 当 一 个 访问 会 话 获 得 后 ,首先 计算 该 访问 会 话 与 各 聚 类 的 匹 
配 值 , 确 认 其 属于 哪个 聚 类 ,再 应 用 这 个 聚 类 对 应 的 关联 规则 进行 推荐 。 这 个 类 型 和 瀑布 型 
的 区 别 在 于 ,在 特征 递增 型 中 第 二 种 推荐 方法 使 用 的 特征 包括 了 第 一 种 的 输出 ,而 在 瀑布 型 
中 第 二 种 推荐 方法 并 没有 使 用 第 一 种 产生 的 任何 等 级 排列 的 输出 ,其 两 种 推荐 方法 的 结果 第 
以 一 种 优化 的 方式 进行 混合 。 
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7. 元 层次 型 

该 类 型 的 方法 用 一 种 推荐 方法 产生 的 模型 作为 另 一 种 推荐 方法 的 输入 。 它 与 特征 递增 
型 的 不 同 在 于 : 在 特征 递增 型 中 使 用 一 个 学 习 模 型 产生 某 些 特征 作为 第 二 种 算法 的 输入 ， 
而 在 元 层次 型 中 ,整个 模型 都 会 作为 输入 。 例 如 ,可 以 通过 组 合 基于 用 户 的 协同 过 滤 和 基于 
物品 的 协同 过 滤 算 法 , 先 求解 目标 物品 的 相似 物品 集 , 在 目标 物品 的 相似 物品 集 上 再 采用 基 
于 用 户 的 协同 过 滤 算 法 。 这 种 基于 相似 物品 的 邻居 用 户 协 同 推荐 方法 ,能 很 好 地 处 理 用 户 
多 兴趣 下 的 个 性 化 推荐 问题 ,尤其 是 候选 推荐 物品 的 内 容 属性 相差 很 大 的 时 候 该 方法 性 能 
会 更 好 。 


17.5 基于 阿里 云 数 加 平台 的 推荐 算法 实例 


阿里 云 机 器 学 习 平台 对 其 的 说 明 为 : etrec 是 一 个 item-based 的 协同 过 滤 算 法 ,输入 为 
两 列 或 者 三 列 , 两 列 的 情况 下 ,第 一 列 为 user, 第 二 列 item。 三 列 的 情况 下 : 第 一 列 为 user. 
第 二 列 item, 第 三 列 为 payload。 输 出 为 item 之 间 的 相似 度 。 我 们 对 如 下 数据 做 协同 过 滤 
etrec 算法 操作 ,其 中 user 表示 用 户 id,item 表示 购买 的 物品 id, 如 图 17-4 所 示 。 

阿里 云 数 加 平台 的 流程 图 如 图 17-5 所 示 。 
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0 0 
etrec D) 
0 1 
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1 1 > 协同 过 二 dt。 ©) 
图 17-4 etrec 数据 表 图 17-5 阿里 云 数 加 平台 etrec 算法 操作 流程 图 


etrec 算法 的 字段 和 参数 设置 如 图 17-6 所 示 , 字 段 设 置 选 择 表 中 两 列 即 可 ,参数 设置 
中 ,数据 格式 支持 user-item-payload 格式 的 表 , 也 支持 把 某 一 个 user 的 所 有 item 合并 到 一 
行 的 表 , 即 item-payload 格式 ; 相似 度 类 型 中 ,有 两 种 不 同 的 余弦 相似 度 一 一 wbcosine 类 型 
和 asymcosine 类 型 和 一 个 集合 相似 度 类 型 一 一 jaccard 类 型 ,用 来 计算 集合 之 间 的 相似 度 ， 
选择 其 一 即 可 ; TopN 表示 的 是 输出 结果 中 最 多 保留 多 少 个 相似 物品 ; 计算 行为 表示 当 同 
一 个 user 的 某 个 物品 出 现 多 次 时 ,payload Wit ITAA add, mul, min, max 四 个 选项 , 即 
加 、 乘 、 取 最 小 值 . 取 最 大 值 ; 最 小 物品 值 表示 当 用 户 的 物品 数 小 于 此 值 时 ,忽略 该 用 户 的 行 
为 ,最 大 物品 值 则 表示 当 用 户 的 物品 书 大 于 此 值 时 .忽略 该 用 户 的 行为 ; 平滑 因子 仅 当 相似 
度 类 型 为 asymcosine 类 型 时 ,该 值 设 置 才 有 效 , 权 重 系 数 择 应 注意 当 相 似 度 类 型 为 
asymcosine 类 型 时 , 取 double 类 型 的 值 。 

etrec 算法 在 阿里 云 数 加 平台 上 的 运算 结果 如 图 17-7 所 示 , 其 中 协同 过 滤 结 果 , 表 示 的 
是 商品 的 关联 性 ,itemid 表示 目标 商品 .similarity 字段 的 冒号 左 侧 表示 与 目标 关联 性 高 的 
商品 ,右边 表示 概率 。 我 们 可 以 理解 为 用 户 对 于 商品 0 和 1 联合 购买 的 可 能 性 极 大 ,对 于 仅 
购买 商品 0 的 用 户 可 向 其 推荐 购买 商品 1。 
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(a) etrec 字 段 设置 (b) etrec 参 数 设 置 
图 17-6 etree 字段 和 参数 设置 


图 17-7 实验 结果 


17.6 小 结 


完整 的 推荐 系统 由 三 个 部 分 组 成 : 收集 用 户 信 息 的 行为 记录 模块 ,分 析 用 户 喜好 的 模 
型 分 析 模 块 和 推荐 算法 模块 。 常 见 的 推荐 算法 分 为 三 种 类 型 : 基于 内 容 的 推荐 算法 、 协 同 
过 滤 推 荐 算法 及 混合 推荐 算法 。 协 同 过 滤 (Collaborative Filtering, CF) 推 荐 算法 是 推荐 系 
统 中 主流 的 推荐 算法 , 它 又 包含 基于 记忆 的 协同 过 滤 方 法 和 基于 模型 的 协同 过 滤 方 法 ,前 者 
又 可 以 细 分 为 基于 用 户 的 协同 过 滤 推 荐 算法 、 基 于 物品 的 协同 过 滤 推荐 算法 、 基 于 用 户 的 
Top-N 算法 及 基于 物品 的 Top-N 算法 。 混 合 推荐 算法 通过 将 多 种 推荐 技术 进行 混合 来 互 
相 弥 补缺 点 , 它 可 以 细 分 为 加 权 型 .转换 型 .合并 型 .特征 组 合 型 瀑布 型 .特征 递增 型 以 及 元 
层次 型 等 多 种 类 型 。 
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简 述 协同 过 滤 推 荐 算法 的 分 类 及 其 原理 。 
简 述 协同 过 滤 推 荐 算法 的 优 缺 点 。 





. 简 述 混合 推荐 算法 的 分 类 。 
. 在 阿里 云 数 加 平台 上 利用 etrec 算法 进行 推荐 算法 的 实践 操作 。 
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